L'intelligenza Artificiale come potrebbe migliorare i motori di ricerca?

paocavo

siamo un tantino OT...

rocco.bruno

A proposito dell'interessante argomento di discussione, segnalo a tutti questo simpatico seminario in cui mi sono imbattuto...

http://video.google.com/videoplay?docid=-7704388615049492068

carino, vero?

agoago

@rocco_bruno said:

A proposito dell'interessante argomento di discussione, segnalo a tutti questo simpatico seminario in cui mi sono imbattuto...

http://video.google.com/videoplay?docid=-7704388615049492068

carino, vero?

Grazie Rocco Bruno, e' la cosa piu' interessante intelligente ed utile che, per merito della tua segnalazione, ho avuto la fortuna di leggere-vedere.

Purtroppo la qualita' del video in alcuni casi non mi permette di leggere bene i diagrammi mostrati nella conferenza, se qualcuno dei colleghi trovasse lo stesso video in qualita' migliore per favore lo segnali.

Comunque da vedere assolutamente, soprattutto per chi frequenta abitualmente questa sezione del forum, si parla di linguaggio naturale, di ontologia formale... etc fantastico!

paocavo

Molto, molto interessante!!

Grazie rocco_bruno!!

agoago

Ho installato il programma che e' alla base del video in discussione:

http://www.opencyc.org/

Funziona bene, peccato ci siano poche relazioni "preimpostate", ma del resto il programma deve servire nell'intento per essere adattato alle necessita' personali dei vari utilizzatori, e non per fornire un prodotto pronto all'uso per tutti.

Di certo sara' un bel salto di qualita', una grande rivoluzione.

In poche parole oggi se cerco:

Cosa contiene la scatola

mi vengono presentate le pagine con dentro le parole scatola, cosa, contiene o contenere ecc ecc

In futuro invece potrei avere come risultati delle pagine che parlano di regali, di prodotti e cosi' via, pagine magari che non contengono (o sono lincate) con le parole scatola, cosa, contiene o contenere etc.

Se questo nuovo sistema fosse implementato in modo "pesante" di fatto stravolgerebbe molte serp, premiando probabilmente pagine ricche di contenuti, di "risposte", piuttosto che quelle pagine che ora sono premiate perche' propongono al loro interno prevalentemente i termini delle query, anzi a volte solo quelle...

Di certo, se e quando avverra' questa innovazione, potrebbe rivelarsi un problema per alcuni seo.

Oggi molti seo lavorano per societa' di posizionamento o per clienti che in genere chiedono-pretendono di vedere migliorare le proprie posizioni per un target di key ben precise.

Se il cliente chiede: cane pazzo, il seo inizia a controllare se e come e' scritto "cane pazzo" all'interno delle pagine del cliente.

E' un lavoro per alcuni versi complicato, ma per altri semplice.

Se un domani i seo scoprissero che per spingere cani pazzi doveno-dovrebbero scrivere contenuti su cosa mangiano i cani (impazziscono per il cibo?) sui metodi di allevamento (impazziscono perche' trattati male?) o sui comportamenti strani dei principali animali domestici ecco che il mestiere seo potrebbe diventare molto ma molto pesante.

Il grosso del compito, a quel punto, passarebbe in mano al wm, a chi crea il contenuto e non a chi lo ottimizza.

Da una parte corrisponderebbe anche alla fine di un certo vecchio stile di far spam, sarebbe un bel ripulisti, da un'altra non da meno penalizzerebbe fortemente chi ancora lavora con passione sulla lunghezza dei titoli, sugli h1 e cose del genere.

paocavo

@agoago said:

Ho installato il programma che e' alla base del video in discussione:

http://www.opencyc.org/

Funziona bene, peccato ci siano poche relazioni "preimpostate", ma del resto il programma deve servire nell'intento per essere adattato alle necessita' personali dei vari utilizzatori, e non per fornire un prodotto pronto all'uso per tutti.

Ciao Ago!
hai già provato WordNet?
Inoltre OpenCyc, se non erro, si può interfacciare ed arricchire (semanticamente) con WordNet

umor

"Se questo nuovo sistema fosse implementato in modo "pesante" di fatto stravolgerebbe molte serp, premiando probabilmente pagine ricche di contenuti, di "risposte", piuttosto che quelle pagine che ora sono premiate perche' propongono al loro interno prevalentemente i termini delle query, anzi a volte solo quelle..."

E' già cosi da tempo per quanto mi risulta.. Solo che nessun SEO l'ha capito ma i più si fossilizzano sulle chiave, in quanto nel mercato Italiano spesso si vende quello.

giorgiotave

@uMoR said:

"Se questo nuovo sistema fosse implementato in modo "pesante" di fatto stravolgerebbe molte serp, premiando probabilmente pagine ricche di contenuti, di "risposte", piuttosto che quelle pagine che ora sono premiate perche' propongono al loro interno prevalentemente i termini delle query, anzi a volte solo quelle..."

E' già cosi da tempo per quanto mi risulta.. **Solo che nessun SEO **l'ha capito ma i più si fossilizzano sulle chiave, in quanto nel mercato Italiano spesso si vende quello.

Premesso che il SEO non è una cosa certa, tutto quello che si sa è che sicuramente Google premia pagine di risposta, quasi quasi Landing Page.

Ad esempio, leggesi thread sui Quality Rater, figura esistente in Italia dal 2004.

Mi risulta che ci siano parecchi SEO in Italia che creano siti proprio per quel motivo

Ai motori interessa che gli utenti trovino le risposte e con le landing si danno delle risposte. Tipo la storia del super trust di Wikipedia.

agoago

Paocavo scrive:

"hai già provato WordNet? "

L'ho scaricato l'anno scorso perche' ha gli archivi leggibili e mi sono serviti come base di lavoro. A parte questo non sono stato capace di sfruttarlo probabilmente come andrebbe fatto.
E' una fortuna ma soprattutto un segno di civilta' esemplare che moltissimo materiale sul web sia di libero e gratuito accesso, se nella vita reale fosse anche solo un pochino cosi' vivremmo tutti piu' felici e meno ignoranti.

uMoR scrive:

"E' già cosi da tempo per quanto mi risulta.. Solo che nessun SEO l'ha capito ma i più si fossilizzano sulle chiave, in quanto nel mercato Italiano spesso si vende quello."

Giorgiotave aggiunge:

"Ai motori interessa che gli utenti trovino le risposte e con le landing si danno delle risposte."

uMoR ha il dono della sintesi, e in 2 righe riesce a comprimere 3 pagine di concetti. Sapendo cosa intendeva dire (per esteso) me ne faccio portavoce nonche' divulgatore.

Oggi (e da qualche tempo a questa parte) i motori tendono a calcolare-valutare sempre di piu' il "peso" di un sito piuttosto che il peso delle singole pagine che lo formano.
Pertanto non e' tanto importante che una pagina punti a dare risposta ad una data query ma che sia parte di un sito che tratti ampiamente dell'argomento richiamato dalla query stessa query.

E' lo stesso concetto che c'e' alla base della teoria che gli accessi siano distribuiti pagina per pagina in base al valore globale del sito (suddiviso tra le varie pagine) e non in base al valore di ogni pagina a se stante.

Ammesso (ma ad oggi e' tutto da dimostrare che questa teoria sia valida) ed ipotizzato cio', non solo la landing page perde molto del suo classico valore se non inserita in un insieme di landing page che trattano in modo ampio ed approfondito un argomento, ma non bastesse, in base ai futuri intenti proposti nel video, non sara' cosi' facile approfondire un argomento semplicemente riportando nei testi le key principali (e parenti prossimi delle stesse) con contenuti "vicini".

Per capirci, per ridurre tutto con un discorso piu' semplicistico che semplice, se io volevo vendere "scarpe rosse con tacco spillo" prima potevo cimentarmi con una pagina che trattava ampiamente di scarpe rosse con tacco a spillo.

Poi (oggi) dovrei anche inserire quella pagina in un sito tipo scarpe.com che tratta ampiamente di scarpe ed eccessori, sito che dovrebbe contenere e valorizzare anche la mia landing page per "scarpe rosse con tacco spillo".

Ma con la futura introduzione del linguaggio naturale questo non bastera' piu'.

Il sito contenente la nostra landing page dovra' anche parlare del mal di schiena tipico di chi indossa le scarpe con i tacchi le prime volte, degli aspetti psicologici di chi si ritrova 10 cm piu' alto del solito, e via dicendo...

Argomenti che potrebbero non nominare-contenere le parole tacchi o scarpe, ma che sono naturalmente associati dalla mente umana al concetto di scarpe con i tacchi.

Pertanto, per un wm che conosce profondamente l'argomento del proprio sito nessun problema, dovra' ampliarlo un bel po' e question finita.

Ma per quei seo che sono abituati ad ottimizzare siti o a creare landing page usando le key principali e le loro derivate estrapolandole dai vari db di adwords, overture etc etc, ecco la vero ardua.

E' ardua ma non impossibile, perche' si sa l'inteligenza artificiale non la usano solo i motori (purtroppo per loro).

Ricapitoliamo, il problema e'-era scovare automaticamente "mal di schiena" partendo dalla key "scarpe con tacco".

O "mamma con bambino" partendo dalla key "persone felici".

Tramite i classici db non e' possibile, neanche scendendo in profondita' per ogni sotto key e relative associate. Tra mal di schiena e tacchi non c'e' nessuna relazione nei db delle key.

E' questo che mi ha bloccato mesi fa, ma poi la soluzione si e' palesata proprio grazie all'uso di programmi come quello di Paolo di clustering K-means, e disponendo di un archivio "mostruoso", archivio che si ottinene dalla catalogazione di milioni di pagine presenti sul web.

In questa maniera il programma identifichera' come parole vicine-importanti per chi tratta di mal di schiena anche la key scarpe con tacco, e poi il gioco e' fatto.

A volte bisogna fare dei passaggi intermedi, ma il principio e' lo stesso, si usano gli insiemi, il risultato non e' meraviglioso ma almeno e' un primo passo.

Conoscendolo, credo fosse questo che intendeva uMoR.

umor

Si era quello che intendevo ago, grazie.

"Premesso che il SEO non è una cosa certa, tutto quello che si sa è che sicuramente Google premia pagine di risposta, quasi quasi Landing Page."

Non sono assolutamente d'accordo. Spesso si associa al motore di ricerca il cappello magico come se facesse cose stravaganti, algoritmi mai discussi, tecniche mai studiate.. In realtà i motori non fanno altro che prendere gli studi delle varie università e metterli insieme!

E' vero che nessuno conosce gli algoritmi di ranking dei motori, ma avere solide basi consente di capire le problematiche che devono affrontare gli stessi e soprattutto di capire le cose dal loro punto di vista. Si può stare a parlare per ore ed ore di quality rater, tag title, h1 e così via ma quanti hanno mai provato a spiderizzare il web e rendersi conto di come stanno veramente le cose?

Dopo aver studiato lo studiabile su:
information retrieval, natural language processing, clustering, metodi di compressione (indici documenti immagini mp3 video), crawling, text mining (unstructured data), calcolo distribuito, calcolo parallelo........

E dopo aver applicato questi concetti ogni giorno assicuro a chiunque che ci si rende conto di come le cose di cui discutiamo ogni giorno abbiano un senso molto profondo.

Tutto questo per dire che in realtà dei motori di ricerca si sa molto più di quanto si possa immaginare, basta studiare.

nbriani

@agoago said:

Ricapitoliamo, il problema e'-era scovare automaticamente "mal di schiena" partendo dalla key "scarpe con tacco".

O "mamma con bambino" partendo dalla key "persone felici".

Tramite i classici db non e' possibile, neanche scendendo in profondita' per ogni sotto key e relative associate. Tra mal di schiena e tacchi non c'e' nessuna relazione nei db delle key.

E' questo che mi ha bloccato mesi fa, ma poi la soluzione si e' palesata proprio grazie all'uso di programmi come quello di Paolo di clustering K-means, e disponendo di un archivio "mostruoso", archivio che si ottinene dalla catalogazione di milioni di pagine presenti sul web.

In questa maniera il programma identifichera' come parole vicine-importanti per chi tratta di mal di schiena anche la key scarpe con tacco, e poi il gioco e' fatto.

Anche di piu'... il MDR , identificherà come keyphrase "valida" "mal di schiena" proprio anche grazie allle eventuali numerose co-occorrenze con "scarpe con tacco" ...;)

e le keyphrases "valide", si sa, sono una manna oggi come oggi

Del resto i MDR dispongono di archivi sterminati su cui applicare i propri software di "text mining" , un vantaggio non indifferente quando dici

E' ardua ma non impossibile, perche' si sa l'inteligenza artificiale non la usano solo i motori (purtroppo per loro).

Fattostà, secondo me, la possibile individuazione del numero maggiore possibile di "keyprhases" valide di un cluster di interesse è determinante per la "costruzione" anche di singoli documenti web (non solo di siti) ... per non parlare poi di saper "capire" la keyphrase buona dentro le query di interesse...

Averne di Cavoni e Agoaghi in giro ...;)

Nicola

agoago

Grazie Nbriani per i complimenti, oltre a fare sempre piacere, aiutano.

Due considerazioni.

Tutto si evolve, gli algoritmi dei motori e le tecniche dei seo.
Se fino ad oggi l'attenzione si focalizzava sulle key ora man mano si sta spostando sulle keyphrase.

Capire la differenza tra le due e' fondamentale.

La seconda considerazione e' che una o piu' keyphrase sono facilmente identificabili all'interno di un testo da chi e' del mestiere, una keyphrase puo' corrispondere ad una key di forte rilevanza ma anche ad alcuni termini che per posizione nel testo, frequenza, prossimita' ad altre parole "forti" finiscono con l'assumere veramente un micro riassunto del testo del quale fanno parte.

Siccome i seo sono persone estremamente pratiche, e' di facile previsione prevedere che i piu' preferiranno fare uso di tools ad hoc piuttosto che testare le pagine manualmente.

Fin qui tutto semplice, il vero problema nasce dopo, quando si deve-dovra' scegliere la "filosofia" del tool da adottare-sposare.

In teoria ci potremmo trovare a dover scegliere tra tre diverse "filosofie", tre linee di pensiero, anche se poi in pratica sono solo due.

Avremo chi ci propone l'estrapolazione delle keyphrase in base a precise formule matematiche statistiche. In questo caso il wm A ed il wm B usando questa categoria di tool avranno sullo stesso testo Z sempre lo stesso identico risultato. Perche' e' un risultato oggettivo.

Alcuni tool invece ci proporranno di creare un nostro modello.
Dovremo scegliere qualche centinaio di documenti, analizzarli manualmente, definire per ogni documento quali sono per noi le migliori keyphrase di ogni documento, e poi dare in pasto il tutto al tool.
Il tool, in base alle nostre scelte imparera' cosa intendiamo noi per keyphrase e da ora in avanti cerchera' di riprodurre (sui nuovi documenti) le nostre scelte umane in modo automatico. Lo fara' basandosi anche lui su delle basi statistiche matematiche di massima, ma formule che si tarano-adatteranno alle nostre scelte.
Il risultato sara' pertanto soggettivo e se il modello del wm A differisce da quello del wm B ecco che i 2 wm, per il documento Z, potrebbero ottenere 2 risultati parzialmente o addirittura totalmente diversi.

Purtroppo per noi seo, non e' questa la questione difficile, diremo ancora allora che fin qui... tutto facile.

Il vero problema sara' capire quale strada sceglieranno i motori.
Non e' una finezza, come a prima vista potrebbe sembrare, ma l'aspetto piu' importante.

Se i motori useranno un loro modello, modello basato su loro personalissime analisi e scelte, sara' piu' difficile per il mondo seo identificare la metodologia di scelta delle keyphrase di ogni motore.

I motori allora saranno il wm A e noi il wm B.

nbriani

@agoago said:

Il vero problema sara' capire quale strada sceglieranno i motori.
Non e' una finezza, come a prima vista potrebbe sembrare, ma l'aspetto piu' importante.

Se i motori useranno un loro modello, modello basato su loro personalissime analisi e scelte, sara' piu' difficile per il mondo seo identificare la metodologia di scelta delle keyphrase di ogni motore.

Sono d'accordo con te.

Ma credo che per Google si dovrebbe dire "capire quale strada hanno scelto i motori" !!!

Sono convinto fermamente infatti che il cammino sia già stato intrapreso..

E anche sul tipo di cammino, io una idea me la sono fatta e ci credo abbastanza per** piu' ragioni fondamentali:**

Nell'affrontare questo tipo di problematiche nella sua seppur breve storia passata ha sempre seguito un "criterio", un "metodo" di base: utilizzare l'enorme DB di contenuti che ha per creare, testare e "normalizzare" i propri algoritmi
C'è un brevetto che descrive esattamente un possibile metodo di estrapolazione e indicizzazione delle "keyphrases"

Sostanzialmente i punti fermi che emergono dal brevetto sono infatti:

--> Le frasi si estrapolano dai documenti archiviati (non, come si poteva anche immaginare, dalle query di ricerca)

--> Le frasi si distinguono in "buone" e "cattive" (forse meglio "valide" e "inutili") - Le "buone" sono quelle da indicizzare - le cattive si "scartano" (?)

In funzione di :

@nbriani said:

-** numero di occorrenze sul totale**
- alta frequenza di co-occorrenze di ulteriori frasi "valide" correlate
- "tipo di occorrenza" ... parlo di virgolette, grassetti, punteggiatura delimitante, sottolineatura, colore, evidenziato, ecc ecc

Ma come procede all'estrapolazione? Nell'analisi di un nuovo documento il testo viene scomposto (con criteri che tu conosci sicuramente meglio di me ) in una sorta di lettura "virtuale" in singole frasi da 3,4,5 keyword , che diventano "potenziali candidati" a "Frase valida" fino al confronto (immediato) con gli archivi di indicizzazione ... trovata la frase, si continua la "lettura del testo" da quel punto ricorsivamente fino alla fine del documento.

Niente analisi logica? Niente considerazioni particolari? ..parrebbe di no, o almeno in misura minore... solo un mero lavoro statistico, favorito dai grandi numeri e dalle grandi risorse disponibili.. Puro "rinforzo reciproco" x frasi ... io ci credo. Tu?

Anche i cluster piu' che semantici parrebbero "statistici" , definiti cioè dalle occorrenze e dalle co-occorrenze incontrate nell' "universo" ...

**Quindi il tool di cui parli , in definitiva, dovrebbe avere il compito di "simulare" l'enorme archivio di Google, e quindi sarebbe tanto migliore quanto potesse espandere il proprio raggio di intervento su un numero sempre piu' grande di documenti appartenenti al cluster di interesse del SEO di turno **
Mi pare che ne avevamo già parlato in un altro thred... ma cosa di meglio che analizzare i primi n risultati di una query o di un gruppo di query?? Quello si che sarebbe un tool eccezionale..

Se non lo fate voi due, chi lo deve fare??

Nicola

Citazioni utilizzate:

[0041] 1. Phrase Identification

[0042] The phrase identification operation of the indexing system 110 identifies "good" and "bad" phrases in the document collection that are useful to indexing and searching documents. In one aspect, good phrases are phrases that tend to occur in more than certain percentage of documents in the document collection, and/or are indicated as having a distinguished appearance in such documents, such as delimited by markup tags or other morphological, format, or grammatical markers. Another aspect of good phrases is that they are predictive of other good phrases, and are not merely sequences of words that appear in the lexicon

[0049] Traverse the words of the document with a phrase window length of n, where n is a desired maximum phrase length. The length of the window will typically be at least 2, and preferably 4 or 5 terms (words). Preferably phrases include all words in the phrase window, including what would otherwise be characterized as stop words, such as "a", "the," and so forth. A phrase window may be terminated by an end of line, a paragraph return, a markup tag, or other indicia of a change in content or format.

[0050] FIG. 3 illustrates a portion of a document 300 during a traversal, showing the phrase window 302 starting at the word "stock" and extending 5 words to the right. **The first word in the window 302 is candidate phrase i, and the each of the sequences i+1, i+2, i+3, i+4, and i+5 is likewise a candidate phrase. Thus, in this example, the candidate phrases are: "stock", "stock dogs", "stock dogs for", "stock dogs for the", "stock dogs for the Basque", and "stock dogs for the Basque shepherds". **

[0051] In each phrase window 302, each candidate phrase is checked in turn to determine if it is already present in the** good phrase list** 208 or the possible phrase list 206. If the candidate phrase is not present in either the good phrase list 208 or the possible phrase list 206, then the candidate has already been determined to be "bad" and is skipped.

c'è pure un "Angelo" che aveva tradotto il brevetto...

paocavo

@nbriani said:

Niente analisi logica? Niente considerazioni particolari? ..parrebbe di no, o almeno in misura minore... solo un mero lavoro statistico, favorito dai grandi numeri e dalle grandi risorse disponibili.. Puro "rinforzo reciproco" x frasi ... io ci credo. Tu?

Analisi logica? non credo sia una strada possibile sopratutto tenendo conto che lo dovrebbe fare per la maggior parte delle lingue del Pianeta! (e solo per una è un casino...).
Quello che serve in prima battuta è determinare i Nouns (Soggetto e i complementi oggetto).
Spontaneamente il "rinforzo reciproco" (metodo statistico) aiuta non poco a determinare queste informazioni sui concetti presenti nel testo. Se poi si aggiungono metodi probabilistici (basati sul teorema di Bayes) ed ontologie pre-costituite (WordNet, OpenCyc, ecc...) allora la determinazione di reti semantiche è un gioco ...(si fa per dire...)

...
Mi pare che ne avevamo già parlato in un altro thred... ma cosa di meglio che analizzare i primi n risultati di una query o di un gruppo di query?? Quello si che sarebbe un tool eccezionale..
Se non lo fate voi due, chi lo deve fare??

Nicola

mmmhh...con tutto lo spam presente i giro... la vedo dura...

Ad ogni modo leggete cosa ha detto P. Norving (Direttore della "Search Quality" di Google) due settimane fa ad un seminario intitolato "Il futuro del Search"

PS: Grazie per la fiducia

gik25

Un ragionamento corretto non sempre corrisponde alla realtà. Il fatto che un metodo di misura sia più semplice non significa che gli altri siano inutili.

Se devi misurare la velocità di un corridore, utilizzi due fotocellule a 1 metro di distanza. O comunque misuri lo spazio percorso nell'unità di tempo.

Se devi calcolare la velocità di una stella (ovvero qualcosa di così lontano che non sai nemmeno calcolarne la distanza), misuri lo spostamento verso il rosso nello spettro elettromagnetico della radiazione (il red-shift).

Se devi mettere in moto un oggetto, non ti baserai su nessuno dei due principi fisici bensì su altri ancora.

Misurare la velocità di un oggetto, e far si che un oggetto raggiunga una tale velocità sono due cose completamente diverse.

Se si deve creare un mdr, allora, forse, l'analisi logica è il metodo più complesso.

Le markov chains, ad esempio, creano frasi partendo da una grammatica "statistica" che non tiene conto di alcuni particolari. Ad esempio il punto può seguire (quasi) qualsiasi cosa. L'insieme delle frasi corrette è un sottinsieme di quelle possibili, e un sovrainsieme di quelle esistenti. Inoltre presto si inizierà a creare spam per confondere i motori di ricerca. Infine bisogna tener conto della confusione che nasce dall'html non w3c <span position "absolute" top: 5px>prova</span>to. Che voleva dire l'utente? Provato o prova sopra e to sotto.

rocco.bruno

Con un po' di ritardo, ringrazio AgoAgo e Paocavo per aver apprezzato il materiale video che avevo suggerito. Da pochissimo tempo mi sto interessando di web semantico e trovo le vostre discussioni davvero molto interessanti (per quanto non sia un assiduo frequentatore del forum), anche se capisco un decimo delle cose tecniche a cui fate spesso riferimento.

Ultimamente sono venuto a conoscenza di alcuni tool semantici messi a disposizione dal MIT. Potete trovarli qui:

http://simile.mit.edu/

per ora ho provato solo PiggyBank. Credo che sia un plugin potenzialmente molto utile, però sono inciampato in qualche bug (http://simile.mit.edu/issues/browse/PIGGYBANK-97). Attendo con impazienza vostri commenti e magari qualche consiglio su come sfruttare al meglio questi strumenti...

Ciao

agoago

Nbriani non ero a conoscienza del brevetto di G.

Sembra abbastanza facile da capire e riprodurre.
Tuttavia non mi piace molto la loro scelta di definire una frase come buona nel caso ricorra in piu' documenti.

A prima vista sembra una buona soluzione, ma va contro la teoria che una frase logica e corretta se originale ha maggior valenza di un'altra molto inflazionata.

E' come se G ci dicesse: ti premio se scrivi una frase originale, ma per calcolare il "riassunto" delle tue frasi tengo conto principalmente di quelle non originali.

Potrebbe trattarsi di una precisa scelta per bilanciare le cose, ma allora coerenza poca...

Immaginiamoci una pagina con 100 frasette diverse.
Di queste 100 frasette 3 sono molto comuni, le altre 97 molto originali.
La punteggiatura e' uguale per tutte le frasi.

Ora che io motore debba riassumere quella pagina con 3 keyphrase del tipo:

free web space
free great hosting services
unlimited space

piuttosto che:

servers in USA
9$ for good service
June discount

mi sembra poco logico, a parita' di presenza e disposizione delle parole nel testo in esame.

Non dobbiamo fare confusione tra keyphrase e categorie.
Se volessimo estrapolare le categorie di appartenenza di un documento allora perfetto, sarebbe il miglior sistema.

Ma una keyphrase e' un riassunto, un tag, che deve servire a chi ricerca per identificare facilmente il contenuto "essenziale" di un documento.

Essenziale.

Ma a parita' di valore fra 2 o piu' "riassunti" dovro' offrire all'utente il tag meno inflazionato, perche' di un tag "computer" l'utente se ne fara' poco, se non nulla.

Pensiamo ad un seo che scriva un pezzo-commento su questo mio post, come keyphrase avra' piu' senso "agoago" od il termine "frasi" (a parita' di valore)?

In poche parole un buon sistema per estrapolare keyphrase deve tener conto del solo documento o al massimo dell'insieme di documenti di cui fa parte o paradossalmente se vuole tenere conto anche del web tutto allora spingera' le keyphrase meno sfruttate.

Poi basta fare delle prove per rendersene conto, tenendo conto del peso delle key sul web si ottengono molte categorie e meno tag "interessanti".

Insomma, sicuramente avranno ragione loro, oppure come al solito una ne dicono ed un'altra ne fanno.

Rocco_bruno ho guardato PiggyBank, ma non ho capito bene a cosa serva. Non perche' non serva, ma proprio perche' non ci ho capito nulla!

paocavo

Salve,

estrapolo la seguente discussione dalla precedente:

L'intelligenza Artificiale come potrebbe migliorare i motori di ricerca?

rocco.bruno

@AgoAgo

il tool che ho suggerito serve ad estrapolare metadati dalle pagine web e al contempo (tramite metodi di text mining, suppongo) etichettare il contenuto delle pagine. La semantica fatta attraverso il text mining non credo sia molto utile perchè alla fine solo un lettore umano può comprendere correttamente (e quindi classificare in una struttura ontologica) il contenuto di un testo in linguaggio naturale. tuttavia, penso che lo strumento sia interessante perchè da un lato estrae metadati e li organizza in una struttura ontologica e dall'altro è possibile personalizzare il modo in cui il plugin estrae dati dalle pagine web (attraverso gli "scraper"): in questo modo, se ho delle pagine il cui contenuto è strutturato in modo ripetitivo e secondo moduli (es ricerche fatte su archivi come pubmed, su archivi bibliotecari..) posso creare dei modelli (scraper) fatti apposta per estrarre quante più informazioni possibili da quelle pagine e organizzarle in maniera semantica (i.e. attraverso una ontologia). Poi ogni singolo utilizzatore dello strumento di estrazione può condividere l'informazione estratta con altri e permettergli di navigare attraverso una knowledge base già costituita. Cioè, è un modo di rendere "un po' più semantico" il web che c'è già. Personalmente, spero di utilizzare questa cosa per organizzare i documenti che raccolgo online...

Tutto ciò, ammesso che il tool funzioni: non voglio fare troppa pubblicità, perchè al momento a me funziona solo il dieci percento di quanto ho detto!

paocavo

Salve ragazzi,
dalla discussione ne è stata estratta una nuova, ecco il link del 3D:

Ontologie, Phraserank e Tool Semantici