Clusterizzare News

marco.leone

Clusterizzare News

Ciao a tutti!
sono alle prime armi con le problematiche di IR, e volevo sottoporvi 1 problema che devo decidere come trattare in modo efficiente,
e con 1 grado di recall e precision medi, per 1 algoritmo di clustering di News: in pratica sto implementando 1 prototipo di 1 motore di ricerca di News, e , per 1 data notizia di cui online effettuo il crawling da feed rss, e di cui dispongo di informazioni quali titolo,descrizione(breve,2,3 righe...),autore,pubdate,ho bisogno di sapere quali siano le notizie "simili" tra quelle già presenti nel search engine perchè prelevate precedentemente,
quelle cioè che potrebbe essere utile raggruppare in 1 cluster di notizie correlate per tipo di storia discussa.
Per farlo dovrei utilizzare preferibilmente euristiche sintattiche, e non ontologie e semantiche, ad ogni modo devo cercare di fare 1 processamento che consenta al sistema di avere performance temporali piuttosto veloci(poichè il grosso del calcolo andrà fatto successivamente,e relativamente a delle operazione di mining di soggettività che dovrò effettuare sul testo delle singole News...).

la mia idea ingenua era quella di costruirmi 1 indice invertito(col tool lucene)dei titoli delle News man mano che esse vengono reperite online dal crawler, immaginando che le parole che costituiscono il titolo della News siano rappresentanti delle keywords della News, e fare 1 query booleana su tale indice invertito mettendo in OR le parole del titolo di 1 News appena ricevuta dal crawler online, per stimare il grado di similarità con le News già memorizzate, contando quante matchano la query.... *
Se qualcuno ha qualche buona euristica da suggerirmi, o credi che la mia idea sia stupida e sconsigliabile, o meglio ancora puoi indicarmi qualche soluzione esistente in letteratura per questo problema, tenendo presente che l'ottenimento dell'informazione sulla stima del cluster deve essere il più performante temporalmente possibile(anche a discapito della precisione e/o recall), mi sarebbe molto d'aiuto.
Grazie tante!
Ciao! Marco

paocavo

Ciao Marco è benvenuto nel Forum GT!

Molto interessante il tuo quesito
L'idea dell'indice inverso è sicuramente buona, efficente (in termini di complessità computazionale) ma non sempre efficace (per questioni semantiche).
Altri algoritmi (molto) più efficaci (ma più complessi e bisognosi di potenza) sono:

Buona lettura!

niubbo

Marco ma il tuo obiettivo è creare qualcosa simile a techmeme?

marco.leone

Non conosco textmeme...
quel che devo fare è un prototipo di News search engine,
che una volta prelevata una News dal modulo di retrieving,
debba assegnare ad essa un valore di Ranking per la visualizzazione
delle News sulla homepage del prototipo, che usino criteri quali la freschezza della News(pubdate) la grandezza delle notizie correlate(simili per la storia trattata), l' importanza della sorgente della News...E' quindi per calcolare il rank iniziale di 1 notizia appena ricevuta che ho bisogno di stimare il numero di notizie simili già presenti nell'indice del searchengine...il rank ovviamente diminuirà col tempo, perchè la notizia dovrà invecchiare col tempo.

veke87

Ciao, stavo pensando anche io a costruire una cosa simile... possiamo collaborarE^?

marco.leone

Veik tu cosa devi fare di preciso?
Il mio è un lavoro per la tesi, ma per ora lo sto mettendo
da parte per dedicarmi ad 1 ultimo esame.
Fammi sapere rispondendo,se preferisci, all'indirizzo
[EMAIL="[email protected]"][email protected][/EMAIL]
A presto,Marco

veke87

ti ho risposto via e-mail comunque se vuoi contattarmi ecco il mio msn :
[email protected]