[Brevetti Google] Google PhraseRank

phpone

studiate l'inglese e sara' tutto piu' chiaro

maxmin

studiate l'inglese e sara' tutto piu' chiaro
Colpito e affondato.

beke

[LEFT]Per essere molto semplici e molto sintetici (la seconda purtroppo per necessità), diciamo che se scrivi testi naturali, senza "scrapparli" da altri documenti per riassemblarli in pagine spam, costruite, per esempio, per infilarci delle affiliazioni, non devi preoccuparti.

Se invece lo fai ti conviene armarti di pazienza ed affrontare la lettura del documento, perchè ti riguarda molto da vicino.

[AGGIUNTO] e purtroppo phphone ha ragione, se non conosci l'inglese non hai accesso ad un sacco di informazioni importantissime e ti tocca ad affidarti a traduzioni e riassunti che possono essere incompleti, superficiali e talvolta anche errati.[/AGGIUNTO] [/LEFT]

maxmin

@beke said:

[LEFT]Per essere molto semplici e molto sintetici (la seconda purtroppo per necessità), diciamo che se scrivi testi naturali, senza "scrapparli" da altri documenti per riassemblarli in pagine spam, costruite, per esempio, per infilarci delle affiliazioni, non devi preoccuparti.[/LEFT]

[LEFT]Se invece lo fai ti conviene armarti di pazienza ed affrontare la lettura del documento, perchè ti riguarda molto da vicino.[/LEFT]

Sintetico ma chiarissimo, grazie mille.:)

nbriani

Rinzi, .... grazie! ( anche a te, Beke, quel doc è davvero chiaro e ben fatto!)

Mi era sfuggita questa notizia che trovo davvero molto, molto interessante e determinante nella comprensione di alcuni meccanismi di indexing e ranking che mi "tormentavano" da tempo...

Trovo che l'idea alla base del brevetto è da un punto di vista del "meccanismo tecnico classico" di funzionamento di un mdr una mezza rivoluzione...

Ora è chiaro ed esplicito l'indicizzazione (parlo di quella che costruiscono "fisicamente" i mdr! ) NON avviene piu' a livello di singole "keywords" ma (o anche?) a livello di "Frasi" ...

Ecco spiegato forse il perchè di quelle benedette "stopwords" che da tempo mi tormentavano ... ma quale meccanismo tecnico creava serp cosi' diverse fra "Hotel in Roma", "Hotel Roma", "Hotel a Roma", ecc ecc se gli algoritmi di indicizazione ignorano e non indicizzano le stopwords? In quale "momento" avveniva il legame alle "stopworld", venivano indicizzate? o considerate in fase di generazione degli snippet?

Stavo quasi per testare documenti ottimizzati per le keyword "a" (o "in", o "e"...)

...forse la risposta era ovvia... "L' indicizzazione per frasi" ! Bisognava accorgersene che qualcosa di profondo era cambiato.... (parlo a livello tecnico di funzionamento non tanto in termini di serp)

Una query di ricerca non viene quindi necessariamente scomposta nelle singole keyword che la compongono ne la ricerca dei documenti indicizzati avviene attraverso l'algoritmico confronto dei documenti relativi a ciscuna keyword componente, ma la query viene lavorata e scomposta in "Frasi"... e sono le stesse frasi indicizzate che creano il legame ai documenti che le contengono.

Il ranking poi, non è dato, quindi, da considerazioni a livello di keyword (sia in termini di posizione e forza della singola keyword che in termini di presenza di "Related word" cosi' tanto importanti un tempo) ma a livello di "Frasi" e quindi in merito al numero, al posizionamento, agli anchor, ecc ecc della frase stessa ma anche e soprattutto, par di capire, dalle "Frasi correlate".

Il buon vecchio suggeritore di keywords sembra perdere di importanza nella scelta delle keywords da espandere e su cui puntare ... ora il sistema "vettoriale semantico" che determina l'importanza e la vicinanza (e quindi il ranking) di un documento rispetto alla query lavora per "Frasi" !

C'è da riscrivere la storia.. mi pare!

Si ottengono ottimi risultati anche nei confronti dello SPAM... mi pare semplice come scenario... il keyword stuffing è decisamente morto.. ottime keyword tutte in fila, o sparse in un documento in sequenze non collegabili a "frasi valide" prederminate dal mdr non hanno alcun valore...

E , lo dice il brevetto, non è la ripetizione di keyword a determinare cio' che è spam o meno (quei doc semplicemente non emergono) ma il "Phrase stuffing" (:D ) concetto con cui credo dovremmo confrontarci alla svelta... cioè documenti che contengono un immensità di frasi comuni correlate ad un argomento a rischiare il flag per Spam! ... espandere si ma con giudizio... ma soprattutto: NON COPIARE!!

Infatti una parte derminante del brevetto (e che dovremmo studiare bene) affronta il sistema di generazione delle "FRASI" da indicizzare e delle "Frasi correlate"... il brevetto infatti ci dice derivare da un altro (questo) **"**Phrase identification in an information retrieval system " che descrive le tecniche di analisi e generazione delle "frasi valide" e delle "frasi correlate" all'interno dei documenti ... perchè quelle saranno (analogamente a quanto avveniva a livello di singole keywords) ad dover essere indicizzate.... a questo punto sono studi come quelli di PAOCAVO che dovrebbero cominciare ad illuminarci... Cavone ci sei?

Nicola

beke

[LEFT]Rallenta Nicola

Intanto perchè i due brevetti a cui ti riferisci mi sembra siano entrambi del 2006, quindi relativamente nuovi.
La differenza di risultati fra le serp a due termini e quelle a tre (anche quando uno dei termini è una stop word) è un comportamento osservato da molto più tempo.

Non che il brevetto non sembri interessante, ma penso che la sua applicazione negli algoritmi di ordinamento porterebbe uno di quei terremoti tipo "Florida", che ultimamente non mi pare di avere notato.

[/LEFT]

rinzi

@beke said:

[LEFT]**Rallenta **Nicola

Intanto perchè i due brevetti a cui ti riferisci mi sembra siano entrambi del 2006, quindi relativamente nuovi.
La differenza di risultati fra le serp a due termini e quelle a tre (anche quando uno dei termini è una stop word) è un comportamento osservato da molto più tempo.

Non che il brevetto non sembri interessante, ma penso che la sua applicazione negli algoritmi di ordinamento porterebbe uno di quei terremoti tipo "Florida", che ultimamente non mi pare di avere notato.

[/LEFT]

quoto

albertoseo

Non è che la tecnologia sia già implementata nel mdr?

nbriani

Premesso che qualunque cosa dica o abbia detto il condizionale è d'obbligo ... non sono affatto convinto ( ma non sono certo un esperto nel campo ) che la data del brevetto ci dica nulla sulla data effettiva della sua attuazione che per quanto mi riguarda potrebbe essere avvenuta anche mesi fa oppure mai attuata..

Ribadisco invece come sia stata una specie di personale "folgorazione" poter immaginare una indicizzazione che avviene per frasi e non per keywords singole...

Ogni volta che ho studiato documenti, ho cercato testi e ho scritto relativamente al funzionamento di un MDR e quindi di Google ho sempre letto di come l'attività di crawling generi un archivio di indicizzazione fatto da un elenco alfabetico di ogni singola parola trovata con associati i riferimenti a tutti i documenti che la contengono unitamente a specifici parametri (legati quindi alla posizone o al peso di quella parola nel documento) (piu' qualche altro centinaio di cose che rendano sicuramente piu' complessa la realtà... ma ora non interessa ). Quindi:

Query di singole keyword scatenano semplicemente la ricerca nell'archivio di indicizzazione dei documenti collegati (e presenti fisicamente in server separati) , il loro ordinamento e la presentazione degli snippet.

Query "multikeyword" invece generano tutta una **TIPOLOGIA precisa DI ALGORITMI che ha (oppure ha avuto?) il compito di comparare i documenti trovati in base ai pesi ed ai parametri trovati per ciascuna singola keyword... **dal mio punto di vista, questo è un paletto tecnologico che ha formato un intera generazione di SEO.... **da questo meccanismo derivano infatti molte indicazioni "tipiche" legate alla vicinanza fra le keywords, alla loro posizione in termini di prominenza, al loro numero , alle parole correlate... ecc ecc **

Cosi' funziona ad esempio il ns Teecno (che in tal caso fa una somma algebrica dei punteggi ottenuti per ciscuna keyword che compone la query) ....

Attraverso un indicizzazione per frasi NON è piu' necessario scomporre la query di un utente ma "rapportarla" al proprio archivio di frasi e di frasi correlate... cio' presuppone un nuovo modo di pensare molti aspetti del SEO...

Ora immaginare che non si tratta di parole singole ma di intere frasi, che non si ragiona per "parole correlate" ma per "frasi correlate" , che troppe frasi correlate ( cioè che deviano da un valore standard precalcolato) diventano indicatori di Spam , che attraverso un analisi per frasi si possa determinare (ne parla esplicitamente) un contenuto duplicato, richiede secondo me un cambio di mentalità SEO !

Mi ha colpito molto per esempio leggere che l'estrapolazione delle frasi NON avviene tramite le query degli utenti, ma tramite l'analisi del testo dei documenti... quindi capire come vengano estrapolate le frasi in un testo da una macchina potrebbe dirci molte cose...

Riguardo le "stopword" se mi trovi una spiegazione altrettanto semplice come ci da questo brevetto, alle serp cosi' diverse relativamente a query che le contengono ...saro' felice di capirla... io sono abbastanza convinto che dipenda proprio da una indicizzazione di frasi : " Hotel a " è esattamente una frase che potrebbe essere indicizzata ...

Nicola

nbriani

C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?

"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... **sarà mica che la seconda è una frase (magari indicizzata) **....

albertoseo

Tutto ciò implica anche che sarebbe il caso di scrivere sempre frasi sensate. Insomma, tra le altre cose, dovrebbero precipitare nella lista dei risultati supplementari tutte quelle pagine che contengono frasi prive delle stop words. Esempio:

"Casa a Milano" : buono
"Casa Milano": cattivo

robyweb

@nbriani said:

C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?

"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... **sarà mica che la seconda è una frase (magari indicizzata) **....

interessante ...

è curioso però il fatto che se io cerco

-Caglieri
mi offre la soluzione alternativa e mi da i risultati relativi alla chiave cercata

-a Caglieri
mi offre la soluzione alternativa e i risultati riguardano proprio quella

-ferie Caglieri
addirittura non mi da neanche la soluzione alternativa e mi da direttamente i risultati come se avessi cercato ferie cagliari (ma i risultati di quest'ultima sono diversi in realtà)

paocavo

@nbriani said:

**"**Phrase identification in an information retrieval system " che descrive le tecniche di analisi e generazione delle "frasi valide" e delle "frasi correlate" all'interno dei documenti ... perchè quelle saranno (analogamente a quanto avveniva a livello di singole keywords) ad dover essere indicizzate.... a questo punto sono studi come quelli di PAOCAVO che dovrebbero cominciare ad illuminarci... Cavone ci sei?

Nicola

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

Browser Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; Google-TR-4-GT) - Page /Default.asp - mDate 15/01/2007 - mTime 13.37.35 - OS unknown - Referer http://www.google.it/search?sourceid=navclient&hl=it&ie=UTF-8&rls=GGIC,GGIC:2006-49,GGIC:it&q=paolo+cavone - UA Netscape - UAVersion 4.00 - UserIP 72.14.192.13 (United States - California - Mountain View - Google Inc)

E già... sembra proprio che dovremo fare i conti con l'analisi semantica delle frasi e saranno queste da dover posizionare . Grazie 1000 per i link appena posso mi studio tutto!!

nbriani

@paocavo said:

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

ok, aspettiamo anche le tue considerazioni quindi, ... ah! dimenticavo... se ti assumono non ti scordare degli amici!

Nicola

paocavo

@nbriani said:

ok, aspettiamo anche le tue considerazioni quindi, ...

Durante le feste natalizie io e (il grande) Agoago abbiamo discusso in pvt approfonditamente sull'argomento: "rilevazione delle frasi più semanticamente rilevanti di un documento nel dominio (i.e. in relazione al/del) documento stesso e nel (in relazione a) *dominio *di Internet". Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

@nbriani said:

ah! dimenticavo... se ti assumono non ti scordare degli amici!
Nicola

seee...magari!!

rammo

Ragazzi questa discussione è davvero interessante..
..leggo leggo..

paocavo

@paocavo said:

Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

Ecco la discussione:
http://www.giorgiotave.it/forum/laboratorio-seo/27235-search-engine-optimization-text-mining-next-generation.html

nbriani

Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...

Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!

Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...

Magari se Agoago interverrà potrà farmi capire meglio le premesse di quella discussione e il tipo di lavoro e di strumenti che utilizza.

Visto il topic del thred mi concentrei infatti su alcuni spunti della Vs discussione piu' vicini al concetto e all'argomento "frasi":

Un motore basato sulla indicizzazione di frasi e non di keyword su cui si basano tutti i brevetti che stiamo analizzando è certamente un motore che ha "esigenze" diverse in fase di "spiderizzazione" e pure "vantaggi" e possibilità diverse in fase di ranking e di individuazione di risultati rilevanti (e dello spam!) .

Nella premessa del brevetto si legge:

I Mdr basati sul boolean-matching delle singole keywords di una query hanno limiti conosciuti: Una ricerca come "Pastore Tedesco" mostra documenti ad alto ranking per il termine "tedesco" ma che niente hanno a che fare con i cani che è l'evidente concetto richiesto dall'utente...

Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).

Inoltre tentare la strada del risconoscimento di ogni possibile frase porta a richieste in termini di risorse molto elevate: una lingua formata da 200.000 termini avrebbe 3,2 x10 alla 26 potenza di possibili frasi formate da 3,4,5 parole...

Altri sistemi si sono invece basati sulla co-occorenza analizzata di alcune singole parole detrminate : tipo "Presidente" con "casa" o "bianca" ma anche questo porta a serp che presentano si cluster di concetti ma sempre legati alle singole keyword componenti la query...

Ecco perchè un sistema in grado di rilevare automaticamente frasi su "larga scala" e di indizzare e ordinare i documenti in base alle frasi ai concetti indicizzati puo' essere determinante... da qui il brevetto...

(la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate...:bho: )

Se queste sono le basi , lasciando per un attimo da parte lo sforzo di capire come un mdr lavora per estrapolare, clusterizzare e indicizzare automaticamente frasi in qualunque lingua e di qualunque lunghezza (lasciamo il compito agli ingegneri) , sarebbe incvece interessante sviluppare insieme (agoago? Paocavo? ) alcuni concetti "pratici" e operativi SEO/SEM di base legati ad un simile sistema:

il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?
cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????
Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?
Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)

-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Voi che dite?

Nicola

cibino

dico che non mi è chiarissimo il penultimo punto circa il contenuto duplicato. sentenze? nicola, potresti chiarirmi il concetto, per favore.

atlapur11

@nbriani said:

il keyword stuffing è decisamente morto

Io questo lo sento dire dallo scorso millennio