Per dividere i testi per lingua, uso le liste di stop words (articoli, avverbi, esclamazioni, interiezioni, preposizioni, pronomi), cioè se debbo selezionare solo testi in italiano, calcolo la quantità di stop words italiane contenute nel testo e se rappresentano almeno il 20% del totale delle parole, classifico il testo come italiano.
Per dividere i testi in un centinaio di categorie, occorrerebbero elenchi simili alle stop words, cioè se abbiamo un elenco con qualche centinaio di parole relative all'alimentazione, e calcolando la percentuale di parole presenti nel testo, potremmo stabilire se il testo è abbinabile alla categoria Alimentazione.
Dove posso trovare tali elenchi? o meglio ancora: esistono programmi pronti per categorizzare i testi?