antoinf

antoinf

Purtroppo ho ancora problemi con la clusterizzazione dei documenti!
Per il mio lavoro di tesi devo clusterizzare 6086 documenti, in media la dimensione è di 5 Kb! ho scaricato il pacchetto javaml, ma su un dataset così grande, tutti gli algoritmi di clustering a disposizione (kmeans, EMClustering, FarthestFirst) riscono a crearmi al più 3 cluster, poi, a partire da k=4 iniziano a ciclare all'infinito. Kmeans, per esempio, fissando k=4 ha girato per tutta la notte e stamattina non era ancora terminato!

Cercando in rete ho visto che un buon algoritmo di clustering per grandi dataset è "diana", ho provato ad eseguirlo sul software statistico R, ma R accetta in input una Term by Document matrix completa, cioè non sparsa e la mia ha dimensione pari a circa 50Mb, quindi niente da fare neanche cn R. qualcuno saprebbe indicarmi un algoritmo che riesca a clusterizzare un dataset molto molto grande, di cui sia disponibile in rete un'implementazione java??
Grazie per l'aiuto

antoinf

grazie mille!almeno adesso riesco a capire i risultati...è già un punto di partenza!

antoinf

grazie per il benvenuto e sopratutto per la dirtta! il problema è che io mi sto laureando in informatica e di statistica ne capisco poco e niente.
ho fatto una prova con il data set butterfly e l'algoritmo kmean (fissando k=2 e numiterazioni=1000) che lancio mi restituisce un risultato del tipo:

Cluster count: 2
Cluster 0
{{1=4.0, 2=2.0};9}
{{1=5.0, 2=1.0};10}
{{1=5.0, 2=2.0};11}
{{1=5.0, 2=3.0};12}
{{1=6.0};13}
{{1=6.0, 2=2.0};14}
{{1=6.0, 2=4.0};15}
Cluster 1
{{2=2.0};2}
{{2=4.0};3}
{{1=1.0};4}
{{1=1.0, 2=1.0};5}
{{1=1.0, 2=3.0};6}
{{1=2.0, 2=2.0};7}
{{1=3.0, 2=2.0};8}

il numero dopo il ; è il numero del documento, ma tutto il resto cosa significa ??? scusate l'ignoranza, ma la statistica è un campo in cui non so proprio muovermi !

antoinf

Ciao a tutti,
avrei un problema con l'algoritmo k-means. In pratica non riesco a trovare nessuna euristica che mi possa giudare nella scelta del valore di k=numero di cluster, ossia il paramentro che l'algoritmo richiede in input. Sono giorni che ci sbatto la testa ma non riesco a venirne fuori.
Qualcuno potrebbe darmi una mano?
Grazie mille!

antoinf

@antoinf

Post creati da antoinf