Ciao Matteo,
credo proprio che il contenuto dei DVD consista "semplicemente" in 24 GB di plain text file, compressi in gzip.
Con dentro un campione del testo in inglese presente sul web.
I dati sono grezzi:
Sample Data
The following is an example of the 3-gram data contained this corpus:
ceramics collectables collectibles 55
ceramics collectables fine 130
ceramics collected by 52
ceramics collectible pottery 50
ceramics collectibles cooking 45
ceramics collection , 144
ceramics collection . 247
ceramics collection 120
ceramics collection and 43
ceramics collection at 52
ceramics collection is 68
ceramics collection of 76
Il segmento di frase a sinistra e il relativo numero di occorrenze a destra, in ordine alfabetico. A capo, e avanti fino a poco meno di 3.800.000.000 righe in tutto.
Insomma, dati che presi così non significano molto. Bisognerebbe prenderli e caricarli in un software che faccia... non so, tu cosa vorresti farci?
L'alternativa è costruirmi uno spider (a dire la verità ho diverse cose in cantiere), e costruirmi da solo un database fino magari a 5-gram
è possibile, e sono sicuro che ti divertiresti! Ma se sai già come processare i dati, forse fai prima a ordinare il DVD