- Home
- Categorie
- Digital Marketing
- Consigli su Penalizzazioni e Test SEO
- archivio 5-gram
-
archivio 5-gram
Ciao a tutti, eccomi di nuovo per chiedervi un consiglio.
Comunque volevo chiedervi se nessuno di voi ha comprato questo archivio che si trova a questo indirizzo:
http :// www . ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13intitolato:
Web 1T 5-gram Version 1Vi porto un estratto della presentazione:
"This data set, contributed by Google Inc., contains English word n-grams and their observed frequency counts. The length of the n-grams ranges from unigrams (single words) to five-grams. We expect this data will be useful for statistical language modeling, e.g., for machine translation or speech recognition, as well as for other uses."Sarei quasi tentato dal comprarlo ma prima vorrei capire in che struttura i dati sono presenti all'interno dei 6 DVD (24GB).
Se qualcuno ha comprato questo cofanetto se può dire le sue impressioni lo ringrazierei molto.
L'alternativa è costruirmi uno spider (a dire la verità ho diverse cose in cantiere), e costruirmi da solo un database fino magari a 5-gram, anche se non vorrei diventare vecchio prima di aver qualcosa di veramente sostanzioso per le mani.
Voi che dite?
Ciao a tutti
Matteo Boffo
-
Ciao Matteo,
credo proprio che il contenuto dei DVD consista "semplicemente" in 24 GB di plain text file, compressi in gzip.
Con dentro un campione del testo in inglese presente sul web.
I dati sono grezzi:
Sample Data
The following is an example of the 3-gram data contained this corpus:
ceramics collectables collectibles 55
ceramics collectables fine 130
ceramics collected by 52
ceramics collectible pottery 50
ceramics collectibles cooking 45
ceramics collection , 144
ceramics collection . 247
ceramics collection 120
ceramics collection and 43
ceramics collection at 52
ceramics collection is 68
ceramics collection of 76Il segmento di frase a sinistra e il relativo numero di occorrenze a destra, in ordine alfabetico. A capo, e avanti fino a poco meno di 3.800.000.000 righe in tutto.
Insomma, dati che presi così non significano molto. Bisognerebbe prenderli e caricarli in un software che faccia... non so, tu cosa vorresti farci?
L'alternativa è costruirmi uno spider (a dire la verità ho diverse cose in cantiere), e costruirmi da solo un database fino magari a 5-gram
è possibile, e sono sicuro che ti divertiresti! Ma se sai già come processare i dati, forse fai prima a ordinare il DVD