marco.leone

marco.leone

Veik tu cosa devi fare di preciso?
Il mio è un lavoro per la tesi, ma per ora lo sto mettendo
da parte per dedicarmi ad 1 ultimo esame.
Fammi sapere rispondendo,se preferisci, all'indirizzo
[EMAIL="[email protected]"][email protected][/EMAIL]
A presto,Marco

marco.leone

Non conosco textmeme...
quel che devo fare è un prototipo di News search engine,
che una volta prelevata una News dal modulo di retrieving,
debba assegnare ad essa un valore di Ranking per la visualizzazione
delle News sulla homepage del prototipo, che usino criteri quali la freschezza della News(pubdate) la grandezza delle notizie correlate(simili per la storia trattata), l' importanza della sorgente della News...E' quindi per calcolare il rank iniziale di 1 notizia appena ricevuta che ho bisogno di stimare il numero di notizie simili già presenti nell'indice del searchengine...il rank ovviamente diminuirà col tempo, perchè la notizia dovrà invecchiare col tempo.

marco.leone

Ciao a tutti!
sono alle prime armi con le problematiche di IR, e volevo sottoporvi 1 problema che devo decidere come trattare in modo efficiente,
e con 1 grado di recall e precision medi, per 1 algoritmo di clustering di News: in pratica sto implementando 1 prototipo di 1 motore di ricerca di News, e , per 1 data notizia di cui online effettuo il crawling da feed rss, e di cui dispongo di informazioni quali titolo,descrizione(breve,2,3 righe...),autore,pubdate,ho bisogno di sapere quali siano le notizie "simili" tra quelle già presenti nel search engine perchè prelevate precedentemente,
quelle cioè che potrebbe essere utile raggruppare in 1 cluster di notizie correlate per tipo di storia discussa.
Per farlo dovrei utilizzare preferibilmente euristiche sintattiche, e non ontologie e semantiche, ad ogni modo devo cercare di fare 1 processamento che consenta al sistema di avere performance temporali piuttosto veloci(poichè il grosso del calcolo andrà fatto successivamente,e relativamente a delle operazione di mining di soggettività che dovrò effettuare sul testo delle singole News...).

la mia idea ingenua era quella di costruirmi 1 indice invertito(col tool lucene)dei titoli delle News man mano che esse vengono reperite online dal crawler, immaginando che le parole che costituiscono il titolo della News siano rappresentanti delle keywords della News, e fare 1 query booleana su tale indice invertito mettendo in OR le parole del titolo di 1 News appena ricevuta dal crawler online, per stimare il grado di similarità con le News già memorizzate, contando quante matchano la query.... *
Se qualcuno ha qualche buona euristica da suggerirmi, o credi che la mia idea sia stupida e sconsigliabile, o meglio ancora puoi indicarmi qualche soluzione esistente in letteratura per questo problema, tenendo presente che l'ottenimento dell'informazione sulla stima del cluster deve essere il più performante temporalmente possibile(anche a discapito della precisione e/o recall), mi sarebbe molto d'aiuto.
Grazie tante!
Ciao! Marco

marco.leone

Ciao a tutti
sono alle prime armi con le problematiche di information retrieval, e volevo sottoporvi 1 problema che devo decidere come trattare in modo efficiente,
e con 1 grado di recall e precision medi, per 1 algoritmo di clustering di News: in pratica sto implementando 1 prototipo di 1 motore di ricerca di News, e , per 1 data notizia di cui online effettuo il retrieving da feed rss, e di cui dispongo di informazioni quali titolo,descrizione(breve,2,3 righe...),autore,pubdate,ho bisogno di sapere quali siano le notizie "simili" tra quelle già presenti nel search engine perchè prelevate precedentemente,
quelle cioè che potrebbe essere utile raggruppare in 1 cluster di notizie correlate per argomento. Per farlo dovrei utilizzare euristiche sintattiche, e non ontologie e semantiche, e la mia idea ingenua era quella di costruirmi 1 indice invertito(col tool lucene)
dei vari titoli e description delle News che sono già presenti,e fare 1 query di qualche tipo sull'indice per conoscere dal set di matching quali siano le News che stimo essere simili. Ho letto qualcosa sul cercare di utilizzare nelle query le keywords, ma mi chiedevo se queste fossero tutte quelle che compaiono nel titolo 1 volta escluse le stopwords,o magari anche quelle della description, e come poter pensare di costruire la query(and di keywords, or , oppure altro?).
Se qualcuno ha qualche buona euristica da suggerirmi, o crede che la mia soluzione sia stupida e sconsigliabile, o meglio ancora può indicarmi qualche soluzione esistente in letteratura per questo problema, tenendo presente che l'ottenimento dell'informazione sulla stima del cluster deve essere il più performante temporalmente possibile(anche a discapito della precisione e/o recall), mi sarebbe molto d'aiuto.
Grazie tante!
Marco Leone

marco.leone

@marco.leone

Post creati da marco.leone