Ciao Matteo,
credo proprio che il contenuto dei DVD consista "semplicemente" in 24 GB di plain text file, compressi in gzip.
Con dentro un campione del testo in inglese presente sul web.
I dati sono grezzi:
Sample Data
The following is an example of the 3-gram data contained this corpus:
ceramics collectables collectibles	55
ceramics collectables fine	130
ceramics collected by	52
ceramics collectible pottery	50
ceramics collectibles cooking	45
ceramics collection ,	144
ceramics collection .	247
ceramics collection 	120
ceramics collection and	43
ceramics collection at	52
ceramics collection is	68
ceramics collection of	76
Il segmento di frase a sinistra e il relativo numero di occorrenze a destra, in ordine alfabetico. A capo, e avanti fino a poco meno di 3.800.000.000 righe in tutto.
Insomma, dati che presi così non significano molto. Bisognerebbe prenderli e caricarli in un software che faccia... non so, tu cosa vorresti farci? 
L'alternativa è costruirmi uno spider (a dire la verità ho diverse cose in cantiere), e costruirmi da solo un database fino magari a 5-gram
è possibile, e sono sicuro che ti divertiresti! Ma se sai già come processare i dati, forse fai prima a ordinare il DVD