Purtroppo ho ancora problemi con la clusterizzazione dei documenti!
Per il mio lavoro di tesi devo clusterizzare 6086 documenti, in media la dimensione è di 5 Kb! ho scaricato il pacchetto javaml, ma su un dataset così grande, tutti gli algoritmi di clustering a disposizione (kmeans, EMClustering, FarthestFirst) riscono a crearmi al più 3 cluster, poi, a partire da k=4 iniziano a ciclare all'infinito. Kmeans, per esempio, fissando k=4 ha girato per tutta la notte e stamattina non era ancora terminato!
Cercando in rete ho visto che un buon algoritmo di clustering per grandi dataset è "diana", ho provato ad eseguirlo sul software statistico R, ma R accetta in input una Term by Document matrix completa, cioè non sparsa e la mia ha dimensione pari a circa 50Mb, quindi niente da fare neanche cn R. qualcuno saprebbe indicarmi un algoritmo che riesca a clusterizzare un dataset molto molto grande, di cui sia disponibile in rete un'implementazione java??
Grazie per l'aiuto