Navigazione

    Privacy - Termini e condizioni
    © 2020 Search On Media Group S.r.l.
    • Registrati
    • Accedi
    • CATEGORIES
    • Discussioni
    • Non letti
    • Recenti
    • Hashtags
    • Popolare
    • Utenti
    • Stream
    • Interest
    • Categories
    1. Home
    2. antoinf
    3. Post
    A

    antoinf

    @antoinf

    • Profilo
    • Chi segue 0
    • Da chi è seguito 0
    • Discussioni 0
    • Post 4
    • Migliore 0
    • Gruppi 0
    Iscrizione Ultimo Accesso
    0
    Reputazione
    4
    Post
    0
    Visite al profilo
    0
    Da chi è seguito
    0
    Chi segue
    User Newbie

    Post creati da antoinf

    • RE: Analisi semantica delle Keyword

      Purtroppo ho ancora problemi con la clusterizzazione dei documenti!
      Per il mio lavoro di tesi devo clusterizzare 6086 documenti, in media la dimensione è di 5 Kb! ho scaricato il pacchetto javaml, ma su un dataset così grande, tutti gli algoritmi di clustering a disposizione (kmeans, EMClustering, FarthestFirst) riscono a crearmi al più 3 cluster, poi, a partire da k=4 iniziano a ciclare all'infinito. Kmeans, per esempio, fissando k=4 ha girato per tutta la notte e stamattina non era ancora terminato!

      Cercando in rete ho visto che un buon algoritmo di clustering per grandi dataset è "diana", ho provato ad eseguirlo sul software statistico R, ma R accetta in input una Term by Document matrix completa, cioè non sparsa e la mia ha dimensione pari a circa 50Mb, quindi niente da fare neanche cn R. qualcuno saprebbe indicarmi un algoritmo che riesca a clusterizzare un dataset molto molto grande, di cui sia disponibile in rete un'implementazione java??
      Grazie per l'aiuto

      postato in Intelligenza Artificiale
      A
      antoinf
    • RE: Analisi semantica delle Keyword

      grazie mille!almeno adesso riesco a capire i risultati...è già un punto di partenza!

      postato in Intelligenza Artificiale
      A
      antoinf
    • RE: Analisi semantica delle Keyword

      grazie per il benvenuto e sopratutto per la dirtta! il problema è che io mi sto laureando in informatica e di statistica ne capisco poco e niente.
      ho fatto una prova con il data set butterfly e l'algoritmo kmean (fissando k=2 e numiterazioni=1000) che lancio mi restituisce un risultato del tipo:

      Cluster count: 2
      Cluster 0
      {{1=4.0, 2=2.0};9}
      {{1=5.0, 2=1.0};10}
      {{1=5.0, 2=2.0};11}
      {{1=5.0, 2=3.0};12}
      {{1=6.0};13}
      {{1=6.0, 2=2.0};14}
      {{1=6.0, 2=4.0};15}
      Cluster 1
      {{2=2.0};2}
      {{2=4.0};3}
      {{1=1.0};4}
      {{1=1.0, 2=1.0};5}
      {{1=1.0, 2=3.0};6}
      {{1=2.0, 2=2.0};7}
      {{1=3.0, 2=2.0};8}

      il numero dopo il ; è il numero del documento, ma tutto il resto cosa significa ??? scusate l'ignoranza, ma la statistica è un campo in cui non so proprio muovermi !

      postato in Intelligenza Artificiale
      A
      antoinf
    • RE: Analisi semantica delle Keyword

      Ciao a tutti,
      avrei un problema con l'algoritmo k-means. In pratica non riesco a trovare nessuna euristica che mi possa giudare nella scelta del valore di k=numero di cluster, ossia il paramentro che l'algoritmo richiede in input. Sono giorni che ci sbatto la testa ma non riesco a venirne fuori.
      Qualcuno potrebbe darmi una mano?
      Grazie mille!

      postato in Intelligenza Artificiale
      A
      antoinf