[Brevetti Google] Google PhraseRank

nbriani

C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?

"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... **sarà mica che la seconda è una frase (magari indicizzata) **....

albertoseo

Tutto ciò implica anche che sarebbe il caso di scrivere sempre frasi sensate. Insomma, tra le altre cose, dovrebbero precipitare nella lista dei risultati supplementari tutte quelle pagine che contengono frasi prive delle stop words. Esempio:

"Casa a Milano" : buono
"Casa Milano": cattivo

robyweb

@nbriani said:

C'è una possibile coincidenza-indizio... in questo post si parla di presentazione di Serp e di correzioni di errori...

Da un punto di vista del funzionamento di un MDR , quindi archivio di indicizzazione, ecc ecc ... perchè si arriva a queste due serp?

"Caglieri"

"Ferie a Caglieri"

Nel primo caso Google pur riconoscendo un possibile errore ci mostra i documenti trovati che contengono la parola "Caglieri" ( Caglieri è un cognome esistente)

Nel secondo caso invece Google ci mostra pagine relative solo a "Ferie a Cagliari" e la povera signora Caglieri sparisce...

Come mai? come è possibile se nella seconda query tutte e tre le keywords query sono tutte esistenti? doveva dare 0 risultati e proporre la frase corretta o no?... **sarà mica che la seconda è una frase (magari indicizzata) **....

interessante ...

è curioso però il fatto che se io cerco

-Caglieri
mi offre la soluzione alternativa e mi da i risultati relativi alla chiave cercata

-a Caglieri
mi offre la soluzione alternativa e i risultati riguardano proprio quella

-ferie Caglieri
addirittura non mi da neanche la soluzione alternativa e mi da direttamente i risultati come se avessi cercato ferie cagliari (ma i risultati di quest'ultima sono diversi in realtà)

paocavo

@nbriani said:

**"**Phrase identification in an information retrieval system " che descrive le tecniche di analisi e generazione delle "frasi valide" e delle "frasi correlate" all'interno dei documenti ... perchè quelle saranno (analogamente a quanto avveniva a livello di singole keywords) ad dover essere indicizzate.... a questo punto sono studi come quelli di PAOCAVO che dovrebbero cominciare ad illuminarci... Cavone ci sei?

Nicola

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

Browser Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; Google-TR-4-GT) - Page /Default.asp - mDate 15/01/2007 - mTime 13.37.35 - OS unknown - Referer http://www.google.it/search?sourceid=navclient&hl=it&ie=UTF-8&rls=GGIC,GGIC:2006-49,GGIC:it&q=paolo+cavone - UA Netscape - UAVersion 4.00 - UserIP 72.14.192.13 (United States - California - Mountain View - Google Inc)

E già... sembra proprio che dovremo fare i conti con l'analisi semantica delle frasi e saranno queste da dover posizionare . Grazie 1000 per i link appena posso mi studio tutto!!

nbriani

@paocavo said:

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

ok, aspettiamo anche le tue considerazioni quindi, ... ah! dimenticavo... se ti assumono non ti scordare degli amici!

Nicola

paocavo

@nbriani said:

ok, aspettiamo anche le tue considerazioni quindi, ...

Durante le feste natalizie io e (il grande) Agoago abbiamo discusso in pvt approfonditamente sull'argomento: "rilevazione delle frasi più semanticamente rilevanti di un documento nel dominio (i.e. in relazione al/del) documento stesso e nel (in relazione a) *dominio *di Internet". Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

@nbriani said:

ah! dimenticavo... se ti assumono non ti scordare degli amici!
Nicola

seee...magari!!

rammo

Ragazzi questa discussione è davvero interessante..
..leggo leggo..

paocavo

@paocavo said:

Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

Ecco la discussione:
http://www.giorgiotave.it/forum/laboratorio-seo/27235-search-engine-optimization-text-mining-next-generation.html

nbriani

Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...

Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!

Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...

Magari se Agoago interverrà potrà farmi capire meglio le premesse di quella discussione e il tipo di lavoro e di strumenti che utilizza.

Visto il topic del thred mi concentrei infatti su alcuni spunti della Vs discussione piu' vicini al concetto e all'argomento "frasi":

Un motore basato sulla indicizzazione di frasi e non di keyword su cui si basano tutti i brevetti che stiamo analizzando è certamente un motore che ha "esigenze" diverse in fase di "spiderizzazione" e pure "vantaggi" e possibilità diverse in fase di ranking e di individuazione di risultati rilevanti (e dello spam!) .

Nella premessa del brevetto si legge:

I Mdr basati sul boolean-matching delle singole keywords di una query hanno limiti conosciuti: Una ricerca come "Pastore Tedesco" mostra documenti ad alto ranking per il termine "tedesco" ma che niente hanno a che fare con i cani che è l'evidente concetto richiesto dall'utente...

Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).

Inoltre tentare la strada del risconoscimento di ogni possibile frase porta a richieste in termini di risorse molto elevate: una lingua formata da 200.000 termini avrebbe 3,2 x10 alla 26 potenza di possibili frasi formate da 3,4,5 parole...

Altri sistemi si sono invece basati sulla co-occorenza analizzata di alcune singole parole detrminate : tipo "Presidente" con "casa" o "bianca" ma anche questo porta a serp che presentano si cluster di concetti ma sempre legati alle singole keyword componenti la query...

Ecco perchè un sistema in grado di rilevare automaticamente frasi su "larga scala" e di indizzare e ordinare i documenti in base alle frasi ai concetti indicizzati puo' essere determinante... da qui il brevetto...

(la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate...:bho: )

Se queste sono le basi , lasciando per un attimo da parte lo sforzo di capire come un mdr lavora per estrapolare, clusterizzare e indicizzare automaticamente frasi in qualunque lingua e di qualunque lunghezza (lasciamo il compito agli ingegneri) , sarebbe incvece interessante sviluppare insieme (agoago? Paocavo? ) alcuni concetti "pratici" e operativi SEO/SEM di base legati ad un simile sistema:

il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?
cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????
Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?
Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)

-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Voi che dite?

Nicola

cibino

dico che non mi è chiarissimo il penultimo punto circa il contenuto duplicato. sentenze? nicola, potresti chiarirmi il concetto, per favore.

atlapur11

@nbriani said:

il keyword stuffing è decisamente morto

Io questo lo sento dire dallo scorso millennio

paocavo

"sentenze" (in inglese "sentences") è sinonimo di "frasi"!

paocavo

@nbriani said:

Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...

Grazie a te per avermi chiamato in causa e rendere possibile tutto ciò!

Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!

Infatti, quando ho iniziato a leggere il documento sul nuovo brevetto, mi son detto: "wow!! finalmente stanno lavorando sulle frasi e sulla analisi semantica dei testi. Questo è il Web 2.0, altro che ..."

Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...

eh si! Per il momento il mio obiettivo è analizzare la rilevanza semantica delle frasi di un documento avendo come input il documento stesso. Agoago, giustamente, estende il discorso dicendo che come input dell'analisi dovrebbe essere contemplato il documento stesso in relazione alla totalità dei documenti che costituiscono la "base di conoscenza".

Continua...

paocavo

@nbriani said:

Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).

in effetti...

la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate...:bho:

mi sa di no in quanto, in pratica, si lavorerà sui concetti ed un concetto può essere espresso da una sola parola (nouns). Poi esistono concetti che non hanno ancora un nome...pensa tu!
Il nuovo algoritmo credo andrà a strvolgere e sostituire completamente il vecchio.

il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ?

Se esiste una "frase" (o un "concetto" relazionato conosciuto) allora si "riconosce"

l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords,

saranno tutte cose fondamentali e da non trascurare quindi cari laureati in Lettere e Filosofia fatevi avanti!

l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?

come sempre e come sono stati studiati originariamente da chi ha inventato L'HTML.

e correlato, come si distinguono le frasi in una query?

al 99% una query è una frase!

cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????

E' tutto vivamente consigliato ma non dimentichiamo che apprezzano molto concetti nuovi per estendere le loro basi di conoscenza.

continua...

paocavo

@nbriani said:

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

ci sto già lavorando nel (pochissimo) tempo libero...;)

paocavo

@nbriani said:

Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Sarebbe interessante il parere di Low ...

agoago

Nbriani scrive:

"- il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?"

E' la domanda giusta, la prima domanda che ci si deve porre.
Ho conoscenza di alcune discussioni che ipotizzano-consigliano le stopkey e le congiunzioni (oltre alla classica punteggiatura) come parametro ulteriore per definire-limitare una frase (pezzi di frasi magari dentro un frase piu' lunga).
E' una scelta importante fatta a priori da chi opera in questo settore, ma non c'e' una regola comune.
Per certo questa scelta condizionera' ogni risultato finale.
Questo aspetto e' importante, perche' e' la classica variabile-scelta che, essendo personale, non permette a priori, a nessuno di noi, di esser certo di come si comportera' in merito un motore.
Credo sia la discussione piu' importante dell'intera faccenda, e per discuterne non bisogna essere degli esperti. Per questo motivo e' difficile trovare un accordo comunemente ritenuto valido.

"- cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????"

Le frasi devono essere corrette, indubbiamente.
Per una verifica da poveri io uso word office, lavorando man mano sulle parole sottolineate di rosso.
Sul diffuso non mi esprimo, credo sia indifferente... diffuso vuol dire che e' corretto, ma basta che un originale sia corretto e varra' anche di piu'.

Legate all'argomento... e' il salto di qualita', la vera rivoluzione.

"- Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?"

Le frasi buone sono quelle frasi che contengono termini in tema con l'argomento trattato dal sito. Rinforzano le key a tema che le frasi contengono al loro interno.

"- Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)"

No, il discorso e' simile ma si complica. Se una frase tratta cani in un sito di cani vale 10, se tratta automobili in un sito di cani vale 1.
Diciamo che prima una key in una pagina prendeva valore dalla sua pagina di appartenenza cosi' come ora una frase in una pagina prende valore dalla corrispondenza tra il suo tema ed il tema del sito.

"-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?"

Ad occhio e croce, stabilito il tema prevalente in un sito si valorizza ogni frase valutando se tratta o meno quel dato argomento.

"...mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?"

Un esempio, una domanda.
Io wm A scrivo una frase sui cani (per primo) e la pubblico sul mio sito. Sito di scarso valore che tratta di automobili.
Poi arriva il wm B con un sito di alto valore e la riporta identica sul suo sito.
Sito pero' che tratta di hotel.
Poi arriva il wm C e la copia sul suo sito di medio valore, sito pero' che tratta di cani.
Chi sara' in cima alle serp per quella frase?
Il futuro e' C, prima era A o forse B.

"- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )"

Directory, blog e siti che ospitano spazi gratuiti non saranno penalizzati oltremodo, in quanto da anni sono valutati a parte.
Anche lo span non ne risentira', se sara' praticato dominio per dominio, ogni dominio con un suo tema molto specifico, con una o 2 keyword trattata al massimo.

"Voi che dite?"

E' una rivoluzione, e' il classico algoritmo che ci si aspetta prima o poi da Google.
Google ha un suo modo di intervenire-condizionare-interpretare il web un po' fascistoide, a volte quasi arrogante, a dir poco presutuoso... al limite dell'indisponente, molti diranno... tutta invidia! E forse e' cosi'.
Questo atteggiamento e' tipico delle vere stars, perche' sanno di essere tali.

Perche' anche questa ennesima volta Google ha pieno diritto di ritenersi star?

--

Il rinforzo reciproco ci spiega come una frase valga di piu' rispetto ad un'altra frase contenuta in uno stesso documento a seconda che contenga nel suo interno nessuna, poche o tante parole di valore.

Il rinforzo reciproco ci spiega come una parola valga di piu' rispetto ad un'altra parola a seconda che sia-appartenga-appaia in frasi di basso, medio, alto valore.

Rinforzo reciproco, appunto.

Per semplificare il concetto potremmo dire:

"Un termine è tanto più rilevante quanto più è elevato
il numero di frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante
quanti più termini rilevanti essa contiene."

Questo assioma e' perfetto per dare l'idea di base di cosa stiamo parlando, ma in pratica:

"Un termine è tanto più rilevante quanto più è elevato,
il numero moltiplicato per il valore medio, delle frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevato
il numero moltiplicato per il valore medio, dei termini rilevanti che essa contiene."

Andando oltre si potrebbe ipotizzare:

"Un termine è tanto più rilevante quanto più è elevata la sua vicinanza ad un termine di valore superiore,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevata la sua vicinanza ad una frase di valore superiore."

Questi concetti, apparentemente logici e coerenti, in realta', nella realta', risentono di un limite-difetto che in pratica ne annulla i benfici.

Per supplire a questa mancanza-limite-difetto dovremmo introdurre un ulteriore concetto-assioma:

"Un termine o una frase è tanto più irrilevante quanto più si allontana dal valore del picco della gaussiana disegnata dai valori di tutti i termini e di tutte le frasi di un documento.

Per capire questo concetto pensiamo ad un sito che tratti di cani, ed ad una sua pagina che contenga la seguente frase:

I cani spesso gironzolano con altri cani, cani che a volte mordono quei cani che si comportano veramente da cani!

Si capisce al volo come questo ultimo assioma serva a ridimensionare-escludere alcune frasi o termini in caso di spam-forzature (volute o meno).

Tornando al discorso del perche' Google sia una star, possiamo tranquillamente dire che lo sia perche' Google applica alcune, tutte, moltre altre di queste "regole" partendo dal presupposto che un documento non sia solo una pagina, un solo sito, ma il web tutto.

Google e' in grado di pesare una nostra frase considerando come fosse un unico documento tutto il web.

Non la frase in una nostra pagina, non una frase in un nostro sito, ma una frase nel web.

Veniamo ai soldoni, a quello che di fatto interessa ai seo.

Non sappiamo cosa e come Google consideri una frase a se stante.
Non sappiamo quali regole precise Google applichi per calcolare il reciproco rinforzo, delle frasi e dei termini.
Non sappiamo quando un dato valore per Google diventi spam.
Sappiamo che per quanto noi potremmo analizzare-pesare le frasi di un nostro sito non avremo mai un'idea precisa del loro valore, noi lavoriamo per pagine-siti, Google per tutto il web.

Detta cosi' ci si scoraggia, non si sa nulla, se non poca teoria, e pertanto non si sa come raccappezzarsi.

Ora, dopo tutta questa filippica, i pochi irriducibili esausti che hanno letto tutta la pappardella si aspettano come minimo che un coniglio spunti dal cappello.

Il problema e' che non solo ci si aspetta il coniglio, ma giustamente, essendo dei professionisti seri, ci si aspetta anche di come e del perche' il coniglio spunti dal nulla.

Chiedo scusa, ma stanchissimo mostro il coniglio e scappo, nei prossimi post, se interessati, discuteremo del come e del perche'.

Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali.

Che fregatura... chi ha siti assolutamente monotematici, chi ha un sito di poche pagine, chi ha quelle poche pagine lunghe ed esaustive, chi ha scritto ogni suo testo di proprio pugno?

Eravamo abituati a conoscere un nuovo algoritmo per i titoli e cambiavamo i titoli... per la density e cambiavamo la density, un nuovo trucco per nascondere il testo e ci adeguavamo... ma era sempre scontato che si dovesse-potesse andare avanti e non che si dovesse ridimensionare tutto.

Sito con tante pagine significa sito con tante frasi.
Sito con tante frasi significa sito con tanti temi.
Sito con tanti temi significa sito con tante keyword diverse.
Sito con tante keyword diverse significa frasi con basso valore, frasi non significative.
Sito con frasi poco significative significa keyword non valorizzate nel loro interno.

Sito con tante frasi ma un unico tema significa stesse keyword ripetute ovunque.
Stesse keyword ripetute in tante frasi significa spam.

Il reciproco rinforzo per tantissimi wm diventera' man mano reciproca penalizzazione.

Google, nel caso in discussione, non ha fatto che applicare la formula per bollire il riso in bianco. Formula che pero' terra' conto anche di dove e da chi ogni chicco di riso viene prodotto e cucinato sul web.
Da qui Google star!!

Ultimissima considerazione.
Pensate alla moda.
Pensate al design.
Etc.

In molti settori si vive di cicli e ricicli.

Ivan Graziani, avrebbe detto tricicli (ma avrebbe anche potuto aggiungere catarro che andava bene lo stesso, Galileo Galilei dei nostri tempi).

I motori di ricerca non sono da meno.

Piu' sei grosso piu' vali, poi piu' sei originale piu' vali, poi piu' sei specifico piu' vali, piu' sei specifico e piccolo piu' vali, piu' sei specifico ed orginale piu' vali, piu' sei specifico originale grosso e lincato a tema e piu' vali, piu' sei specifico definito ma esauriente ed hub e piu' vali... via discorrendo.

Ogni 6 mesi mediamentre spostano i soliti mobili annunciando un nuovo arredamento, ma a forza di spostarli prima o poi si ritroveranno con i mobili posizionati nella posizione di partenza. Buona cosa del resto.

Chiudo il post ringraziando di cuore Paocavo ed uMoR, per validi motivi miei.
Due persone che stimo (e sia ben chiaro, mi piace la gnocca :)).

everfluxx

A spam document is identified based on the number of related phrases included in a document.
[...]
From the foregoing, the number of the related phrases present in a given document will be known. A normal, non-spam document will generally have a relatively limited number of related phrases, typically on the order of between 8 and 20, depending on the document collection. By contrast, a spam document will have an excessive number of related phrases, for example on the order of between 100 and 1000 related phrases. Thus, the present invention takes advantage of this discovery by identifying as spam documents those documents that have a statistically significant deviation in the number of related phrases relative to an expected number of related phrases for documents in the document collection.

[grassetto mio]

nbriani

@Everfluxx said:

[grassetto mio]

Multiple index based information retrieval system (20060106792) Assigned to Google
Phrase-based searching in an information retrieval system (20060031195) Assigned to Google
Phrase-based indexing in an information retrieval system (20060020607)
Phrase-based generation of document descriptions (20060020571)
Phrase identification in an information retrieval system (20060018551)
Detecting spam documents in a phrase based information retrieval system( 20060294155)

Everfluxx, certo ... ma quella parte si riferisce a solo uno dei brevetti (l'ultimo qui sopra e che fanno tutti capo a Anna Lynn Patterson, ex archive.org ora google) e che riguardano "l'ingegnerizzazione" di molti aspetti (non solo quelli legati all'individuazione dello spam) che ruotano intorno alla realizzazione di un MDR basato su un indicizzazione per frasi
(dove indicizzazione è intesa esattamente per cio' che è ...cioè il modo o meglio, la tecnica di archiviazione dei "contenuti spiderizzati" e che influenza fortemente la tipologia di algoritmi successivamente applicabili per il ranking e la ricerca dei migliori documenti).

Mi quoto sulla parte legata allo spam: >

Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ...

Nicola

petro

Finalmente sono riuscito a leggere per intero il thread (non ancora i brevetti per intero, ma lo farò nei prossimi giorni).

L'impressione che ricavo dalla lettura, a caldo, è che verranno (forse ingiustamente?) penalizzati quei siti che presentano sezioni differenti su temi differenti, tipicamente i grandi portali generalisti.

Questo, a meno che Google non abbia in cantiere (o già sui server di produzione) un algo che definisce e differenzia anche le pagine di un sito, per sezione di appartenenza. Tenendo conto anche degli eventuali riferimenti incrociati tra le stesse, e rapportando questi riferimenti al web tutto.

Agoago, giustamente, dice che il motore ragiona avendo come parametro di riferimento il web nella sua interezza. E questo sembrerebbe a prima vista escludere ogni speculazione che riguardi il singolo dominio/sito.

Ma troppe indicazioni ci portano a ritenere che google ragioni ANCHE in funzione del dominio di appartenenza. E allora, forse che un sito che tratti di cani non possa, nel contempo, parlare ANCHE di automobili, in due sezioni distinte del sito?

Io credo che questa sia una sfida già vinta, a Mountain View. Non ci vuole molto, del resto; e chi dice che i grandi portali non abbiano contenuti di qualità? Semmai è vero il contrario!

La domanda che deriva da questo ragionamento diverrebbe dunque: meglio avere un portale che parli sia di cani che di automobili, o un sito sui cani E uno sulle automobili?

Questa domanda però è ingiusta, in quanto prescinde dall'appeal che il "marchio" del portale ha sui visitatori, e da tutte le altre implicazioni legate al trattare più argomenti, anche semanticamente lontani, su uno stesso sito.

Io personalmente non credo che Google (o chi per esso) abbia interesse a penalizzare, tanto per dirne una, una testata giornalistica che, per definizione, tratta argomenti molto distanti tra loro.

Se voi foste il motore, come interpretereste un sito che tratta parecchi argomenti distanti tra loro?
Vi basereste: sul Trust, sull'attinenza relativa alla pagina relativamente alla sezione (altre pagine attinenti) del sito, sull'attinenza delle frasi contenute in un sito col resto delle frasi provenienti dal sito nella sua interezza, sul rapporto delle stesse con le frasi contenute in altre pagine/sezioni/siti nel web?

E come interpretereste le frasi retoriche? Andrebbero, in linea teorica: penalizzate, ritenute ininfluenti, premiate algoritmicamente? Nell'ultimo caso, in che modo?

P.s. "Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali." ...:D

Nei prossimi giorni rielaboro le questioni più "tecniche" (tra virgolette) legate al prhase rank.