• User

    archivio 5-gram

    Ciao a tutti, eccomi di nuovo per chiedervi un consiglio.
    Comunque volevo chiedervi se nessuno di voi ha comprato questo archivio che si trova a questo indirizzo:
    http :// www . ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13

    intitolato:
    Web 1T 5-gram Version 1

    Vi porto un estratto della presentazione:
    "This data set, contributed by Google Inc., contains English word n-grams and their observed frequency counts. The length of the n-grams ranges from unigrams (single words) to five-grams. We expect this data will be useful for statistical language modeling, e.g., for machine translation or speech recognition, as well as for other uses."

    Sarei quasi tentato dal comprarlo ma prima vorrei capire in che struttura i dati sono presenti all'interno dei 6 DVD (24GB).

    Se qualcuno ha comprato questo cofanetto se può dire le sue impressioni lo ringrazierei molto.

    L'alternativa è costruirmi uno spider (a dire la verità ho diverse cose in cantiere), e costruirmi da solo un database fino magari a 5-gram, anche se non vorrei diventare vecchio 😄 prima di aver qualcosa di veramente sostanzioso per le mani.

    Voi che dite?

    Ciao a tutti
    Matteo Boffo


  • User Attivo

    Ciao Matteo,

    credo proprio che il contenuto dei DVD consista "semplicemente" in 24 GB di plain text file, compressi in gzip.

    Con dentro un campione del testo in inglese presente sul web.

    I dati sono grezzi:

    Sample Data

    The following is an example of the 3-gram data contained this corpus:

    ceramics collectables collectibles 55
    ceramics collectables fine 130
    ceramics collected by 52
    ceramics collectible pottery 50
    ceramics collectibles cooking 45
    ceramics collection , 144
    ceramics collection . 247
    ceramics collection 120
    ceramics collection and 43
    ceramics collection at 52
    ceramics collection is 68
    ceramics collection of 76

    Il segmento di frase a sinistra e il relativo numero di occorrenze a destra, in ordine alfabetico. A capo, e avanti fino a poco meno di 3.800.000.000 righe in tutto.

    Insomma, dati che presi così non significano molto. Bisognerebbe prenderli e caricarli in un software che faccia... non so, tu cosa vorresti farci? 🙂

    L'alternativa è costruirmi uno spider (a dire la verità ho diverse cose in cantiere), e costruirmi da solo un database fino magari a 5-gram
    è possibile, e sono sicuro che ti divertiresti! Ma se sai già come processare i dati, forse fai prima a ordinare il DVD 😉