[Brevetti Google] Google PhraseRank

nbriani

Ah! ...ecco perchè ieri ho ricevuto questa visita sul mio sito :

ok, aspettiamo anche le tue considerazioni quindi, ... ah! dimenticavo... se ti assumono non ti scordare degli amici!

Nicola

paocavo

ok, aspettiamo anche le tue considerazioni quindi, ...

Durante le feste natalizie io e (il grande) Agoago abbiamo discusso in pvt approfonditamente sull'argomento: "rilevazione delle frasi più semanticamente rilevanti di un documento nel dominio (i.e. in relazione al/del) documento stesso e nel (in relazione a) *dominio *di Internet". Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

@nbriani said:

ah! dimenticavo... se ti assumono non ti scordare degli amici!
Nicola

seee...magari!!

rammo

Ragazzi questa discussione è davvero interessante..
..leggo leggo..

paocavo

@paocavo said:

Abbiamo deciso di rendere pubblica questa discussione ed a breve la pubblicherò in un 3D a parte nella sezione Laboratorio SEO.

Stay tuned...

Ecco la discussione:
http://www.giorgiotave.it/forum/laboratorio-seo/27235-search-engine-optimization-text-mining-next-generation.html

nbriani

Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...

Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!

Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...

Magari se Agoago interverrà potrà farmi capire meglio le premesse di quella discussione e il tipo di lavoro e di strumenti che utilizza.

Visto il topic del thred mi concentrei infatti su alcuni spunti della Vs discussione piu' vicini al concetto e all'argomento "frasi":

Un motore basato sulla indicizzazione di frasi e non di keyword su cui si basano tutti i brevetti che stiamo analizzando è certamente un motore che ha "esigenze" diverse in fase di "spiderizzazione" e pure "vantaggi" e possibilità diverse in fase di ranking e di individuazione di risultati rilevanti (e dello spam!) .

Nella premessa del brevetto si legge:

I Mdr basati sul boolean-matching delle singole keywords di una query hanno limiti conosciuti: Una ricerca come "Pastore Tedesco" mostra documenti ad alto ranking per il termine "tedesco" ma che niente hanno a che fare con i cani che è l'evidente concetto richiesto dall'utente...

Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).

Inoltre tentare la strada del risconoscimento di ogni possibile frase porta a richieste in termini di risorse molto elevate: una lingua formata da 200.000 termini avrebbe 3,2 x10 alla 26 potenza di possibili frasi formate da 3,4,5 parole...

Altri sistemi si sono invece basati sulla co-occorenza analizzata di alcune singole parole detrminate : tipo "Presidente" con "casa" o "bianca" ma anche questo porta a serp che presentano si cluster di concetti ma sempre legati alle singole keyword componenti la query...

Ecco perchè un sistema in grado di rilevare automaticamente frasi su "larga scala" e di indizzare e ordinare i documenti in base alle frasi ai concetti indicizzati puo' essere determinante... da qui il brevetto...

(la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate...:bho: )

Se queste sono le basi , lasciando per un attimo da parte lo sforzo di capire come un mdr lavora per estrapolare, clusterizzare e indicizzare automaticamente frasi in qualunque lingua e di qualunque lunghezza (lasciamo il compito agli ingegneri) , sarebbe incvece interessante sviluppare insieme (agoago? Paocavo? ) alcuni concetti "pratici" e operativi SEO/SEM di base legati ad un simile sistema:

il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?
cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????
Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?
Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)

-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Voi che dite?

Nicola

cibino

dico che non mi è chiarissimo il penultimo punto circa il contenuto duplicato. sentenze? nicola, potresti chiarirmi il concetto, per favore.

atlapur11

@nbriani said:

il keyword stuffing è decisamente morto

Io questo lo sento dire dallo scorso millennio

paocavo

"sentenze" (in inglese "sentences") è sinonimo di "frasi"!

paocavo

@nbriani said:

Una notte insonne era cio' che ci voleva per poter affrontare con calma quella davvero interessante discussione che ti ringrazio di averci postato e pure gli altrettanto interessanti documenti e tools del tuo sito...

Grazie a te per avermi chiamato in causa e rendere possibile tutto ciò!

Pare proprio che i Vs studi siano davvero fortemente correlati ai brevetti legati all'indicizzazione per Frasi. Ottimo!

Infatti, quando ho iniziato a leggere il documento sul nuovo brevetto, mi son detto: "wow!! finalmente stanno lavorando sulle frasi e sulla analisi semantica dei testi. Questo è il Web 2.0, altro che ..."

Non ho capito se anche Agoago lavora o ha Tool simili ai tuoi ma mi è parso nella discussione che il suo interesse va maggiormente verso la clusterizzazione e la rilevanza semantica di keywords e gruppi di keywords di un testo piuttosto che nella estrapolazioni di frasi predominanti si ma pure di senso compiuto e di rilevanza di contenuto, come mi pare siano piu' orientati i tuoi studi e il tuo interessantissimo tool Summarizer...

eh si! Per il momento il mio obiettivo è analizzare la rilevanza semantica delle frasi di un documento avendo come input il documento stesso. Agoago, giustamente, estende il discorso dicendo che come input dell'analisi dovrebbe essere contemplato il documento stesso in relazione alla totalità dei documenti che costituiscono la "base di conoscenza".

Continua...

paocavo

@nbriani said:

Al massimo, (si legge sempre nel brevetto) alcuni sistemi avanzati hanno utilizzato operatori umani per selezionare alcune "frasi" o concetti con cui sono stati indicizzati i documenti ( e questo già spiega molte cose, riguardo a ranking anomali per alcune keyphrases , no? ).

in effetti...

la prima domanda che ho è : ma quando parlano di mdr basati sull'indicizzazione per frasi, questa è intesa come indicizzazione che sostituisce quella per keyword singole o che la affianca... secondo voi? Certo che se uso una query singola il metodo di information retrieval dovrebbe essere quello classico, no? quindi io le vedrei affiancate...:bho:

mi sa di no in quanto, in pratica, si lavorerà sui concetti ed un concetto può essere espresso da una sola parola (nouns). Poi esistono concetti che non hanno ancora un nome...pensa tu!
Il nuovo algoritmo credo andrà a strvolgere e sostituire completamente il vecchio.

il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ?

Se esiste una "frase" (o un "concetto" relazionato conosciuto) allora si "riconosce"

l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords,

saranno tutte cose fondamentali e da non trascurare quindi cari laureati in Lettere e Filosofia fatevi avanti!

l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?

come sempre e come sono stati studiati originariamente da chi ha inventato L'HTML.

e correlato, come si distinguono le frasi in una query?

al 99% una query è una frase!

cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????

E' tutto vivamente consigliato ma non dimentichiamo che apprezzano molto concetti nuovi per estendere le loro basi di conoscenza.

continua...

paocavo

@nbriani said:

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

ci sto già lavorando nel (pochissimo) tempo libero...;)

paocavo

@nbriani said:

Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Sarebbe interessante il parere di Low ...

agoago

Nbriani scrive:

"- il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?"

E' la domanda giusta, la prima domanda che ci si deve porre.
Ho conoscenza di alcune discussioni che ipotizzano-consigliano le stopkey e le congiunzioni (oltre alla classica punteggiatura) come parametro ulteriore per definire-limitare una frase (pezzi di frasi magari dentro un frase piu' lunga).
E' una scelta importante fatta a priori da chi opera in questo settore, ma non c'e' una regola comune.
Per certo questa scelta condizionera' ogni risultato finale.
Questo aspetto e' importante, perche' e' la classica variabile-scelta che, essendo personale, non permette a priori, a nessuno di noi, di esser certo di come si comportera' in merito un motore.
Credo sia la discussione piu' importante dell'intera faccenda, e per discuterne non bisogna essere degli esperti. Per questo motivo e' difficile trovare un accordo comunemente ritenuto valido.

"- cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????"

Le frasi devono essere corrette, indubbiamente.
Per una verifica da poveri io uso word office, lavorando man mano sulle parole sottolineate di rosso.
Sul diffuso non mi esprimo, credo sia indifferente... diffuso vuol dire che e' corretto, ma basta che un originale sia corretto e varra' anche di piu'.

Legate all'argomento... e' il salto di qualita', la vera rivoluzione.

"- Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?"

Le frasi buone sono quelle frasi che contengono termini in tema con l'argomento trattato dal sito. Rinforzano le key a tema che le frasi contengono al loro interno.

"- Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)"

No, il discorso e' simile ma si complica. Se una frase tratta cani in un sito di cani vale 10, se tratta automobili in un sito di cani vale 1.
Diciamo che prima una key in una pagina prendeva valore dalla sua pagina di appartenenza cosi' come ora una frase in una pagina prende valore dalla corrispondenza tra il suo tema ed il tema del sito.

"-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?"

Ad occhio e croce, stabilito il tema prevalente in un sito si valorizza ogni frase valutando se tratta o meno quel dato argomento.

"...mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?"

Un esempio, una domanda.
Io wm A scrivo una frase sui cani (per primo) e la pubblico sul mio sito. Sito di scarso valore che tratta di automobili.
Poi arriva il wm B con un sito di alto valore e la riporta identica sul suo sito.
Sito pero' che tratta di hotel.
Poi arriva il wm C e la copia sul suo sito di medio valore, sito pero' che tratta di cani.
Chi sara' in cima alle serp per quella frase?
Il futuro e' C, prima era A o forse B.

"- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )"

Directory, blog e siti che ospitano spazi gratuiti non saranno penalizzati oltremodo, in quanto da anni sono valutati a parte.
Anche lo span non ne risentira', se sara' praticato dominio per dominio, ogni dominio con un suo tema molto specifico, con una o 2 keyword trattata al massimo.

"Voi che dite?"

E' una rivoluzione, e' il classico algoritmo che ci si aspetta prima o poi da Google.
Google ha un suo modo di intervenire-condizionare-interpretare il web un po' fascistoide, a volte quasi arrogante, a dir poco presutuoso... al limite dell'indisponente, molti diranno... tutta invidia! E forse e' cosi'.
Questo atteggiamento e' tipico delle vere stars, perche' sanno di essere tali.

Perche' anche questa ennesima volta Google ha pieno diritto di ritenersi star?

--

Il rinforzo reciproco ci spiega come una frase valga di piu' rispetto ad un'altra frase contenuta in uno stesso documento a seconda che contenga nel suo interno nessuna, poche o tante parole di valore.

Il rinforzo reciproco ci spiega come una parola valga di piu' rispetto ad un'altra parola a seconda che sia-appartenga-appaia in frasi di basso, medio, alto valore.

Rinforzo reciproco, appunto.

Per semplificare il concetto potremmo dire:

"Un termine è tanto più rilevante quanto più è elevato
il numero di frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante
quanti più termini rilevanti essa contiene."

Questo assioma e' perfetto per dare l'idea di base di cosa stiamo parlando, ma in pratica:

"Un termine è tanto più rilevante quanto più è elevato,
il numero moltiplicato per il valore medio, delle frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevato
il numero moltiplicato per il valore medio, dei termini rilevanti che essa contiene."

Andando oltre si potrebbe ipotizzare:

"Un termine è tanto più rilevante quanto più è elevata la sua vicinanza ad un termine di valore superiore,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevata la sua vicinanza ad una frase di valore superiore."

Questi concetti, apparentemente logici e coerenti, in realta', nella realta', risentono di un limite-difetto che in pratica ne annulla i benfici.

Per supplire a questa mancanza-limite-difetto dovremmo introdurre un ulteriore concetto-assioma:

"Un termine o una frase è tanto più irrilevante quanto più si allontana dal valore del picco della gaussiana disegnata dai valori di tutti i termini e di tutte le frasi di un documento.

Per capire questo concetto pensiamo ad un sito che tratti di cani, ed ad una sua pagina che contenga la seguente frase:

I cani spesso gironzolano con altri cani, cani che a volte mordono quei cani che si comportano veramente da cani!

Si capisce al volo come questo ultimo assioma serva a ridimensionare-escludere alcune frasi o termini in caso di spam-forzature (volute o meno).

Tornando al discorso del perche' Google sia una star, possiamo tranquillamente dire che lo sia perche' Google applica alcune, tutte, moltre altre di queste "regole" partendo dal presupposto che un documento non sia solo una pagina, un solo sito, ma il web tutto.

Google e' in grado di pesare una nostra frase considerando come fosse un unico documento tutto il web.

Non la frase in una nostra pagina, non una frase in un nostro sito, ma una frase nel web.

Veniamo ai soldoni, a quello che di fatto interessa ai seo.

Non sappiamo cosa e come Google consideri una frase a se stante.
Non sappiamo quali regole precise Google applichi per calcolare il reciproco rinforzo, delle frasi e dei termini.
Non sappiamo quando un dato valore per Google diventi spam.
Sappiamo che per quanto noi potremmo analizzare-pesare le frasi di un nostro sito non avremo mai un'idea precisa del loro valore, noi lavoriamo per pagine-siti, Google per tutto il web.

Detta cosi' ci si scoraggia, non si sa nulla, se non poca teoria, e pertanto non si sa come raccappezzarsi.

Ora, dopo tutta questa filippica, i pochi irriducibili esausti che hanno letto tutta la pappardella si aspettano come minimo che un coniglio spunti dal cappello.

Il problema e' che non solo ci si aspetta il coniglio, ma giustamente, essendo dei professionisti seri, ci si aspetta anche di come e del perche' il coniglio spunti dal nulla.

Chiedo scusa, ma stanchissimo mostro il coniglio e scappo, nei prossimi post, se interessati, discuteremo del come e del perche'.

Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali.

Che fregatura... chi ha siti assolutamente monotematici, chi ha un sito di poche pagine, chi ha quelle poche pagine lunghe ed esaustive, chi ha scritto ogni suo testo di proprio pugno?

Eravamo abituati a conoscere un nuovo algoritmo per i titoli e cambiavamo i titoli... per la density e cambiavamo la density, un nuovo trucco per nascondere il testo e ci adeguavamo... ma era sempre scontato che si dovesse-potesse andare avanti e non che si dovesse ridimensionare tutto.

Sito con tante pagine significa sito con tante frasi.
Sito con tante frasi significa sito con tanti temi.
Sito con tanti temi significa sito con tante keyword diverse.
Sito con tante keyword diverse significa frasi con basso valore, frasi non significative.
Sito con frasi poco significative significa keyword non valorizzate nel loro interno.

Sito con tante frasi ma un unico tema significa stesse keyword ripetute ovunque.
Stesse keyword ripetute in tante frasi significa spam.

Il reciproco rinforzo per tantissimi wm diventera' man mano reciproca penalizzazione.

Google, nel caso in discussione, non ha fatto che applicare la formula per bollire il riso in bianco. Formula che pero' terra' conto anche di dove e da chi ogni chicco di riso viene prodotto e cucinato sul web.
Da qui Google star!!

Ultimissima considerazione.
Pensate alla moda.
Pensate al design.
Etc.

In molti settori si vive di cicli e ricicli.

Ivan Graziani, avrebbe detto tricicli (ma avrebbe anche potuto aggiungere catarro che andava bene lo stesso, Galileo Galilei dei nostri tempi).

I motori di ricerca non sono da meno.

Piu' sei grosso piu' vali, poi piu' sei originale piu' vali, poi piu' sei specifico piu' vali, piu' sei specifico e piccolo piu' vali, piu' sei specifico ed orginale piu' vali, piu' sei specifico originale grosso e lincato a tema e piu' vali, piu' sei specifico definito ma esauriente ed hub e piu' vali... via discorrendo.

Ogni 6 mesi mediamentre spostano i soliti mobili annunciando un nuovo arredamento, ma a forza di spostarli prima o poi si ritroveranno con i mobili posizionati nella posizione di partenza. Buona cosa del resto.

Chiudo il post ringraziando di cuore Paocavo ed uMoR, per validi motivi miei.
Due persone che stimo (e sia ben chiaro, mi piace la gnocca :)).

everfluxx

A spam document is identified based on the number of related phrases included in a document.
[...]
From the foregoing, the number of the related phrases present in a given document will be known. A normal, non-spam document will generally have a relatively limited number of related phrases, typically on the order of between 8 and 20, depending on the document collection. By contrast, a spam document will have an excessive number of related phrases, for example on the order of between 100 and 1000 related phrases. Thus, the present invention takes advantage of this discovery by identifying as spam documents those documents that have a statistically significant deviation in the number of related phrases relative to an expected number of related phrases for documents in the document collection.

[grassetto mio]

nbriani

@Everfluxx said:

[grassetto mio]

Multiple index based information retrieval system (20060106792) Assigned to Google
Phrase-based searching in an information retrieval system (20060031195) Assigned to Google
Phrase-based indexing in an information retrieval system (20060020607)
Phrase-based generation of document descriptions (20060020571)
Phrase identification in an information retrieval system (20060018551)
Detecting spam documents in a phrase based information retrieval system( 20060294155)

Everfluxx, certo ... ma quella parte si riferisce a solo uno dei brevetti (l'ultimo qui sopra e che fanno tutti capo a Anna Lynn Patterson, ex archive.org ora google) e che riguardano "l'ingegnerizzazione" di molti aspetti (non solo quelli legati all'individuazione dello spam) che ruotano intorno alla realizzazione di un MDR basato su un indicizzazione per frasi
(dove indicizzazione è intesa esattamente per cio' che è ...cioè il modo o meglio, la tecnica di archiviazione dei "contenuti spiderizzati" e che influenza fortemente la tipologia di algoritmi successivamente applicabili per il ranking e la ricerca dei migliori documenti).

Mi quoto sulla parte legata allo spam: >

Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ...

Nicola

petro

Finalmente sono riuscito a leggere per intero il thread (non ancora i brevetti per intero, ma lo farò nei prossimi giorni).

L'impressione che ricavo dalla lettura, a caldo, è che verranno (forse ingiustamente?) penalizzati quei siti che presentano sezioni differenti su temi differenti, tipicamente i grandi portali generalisti.

Questo, a meno che Google non abbia in cantiere (o già sui server di produzione) un algo che definisce e differenzia anche le pagine di un sito, per sezione di appartenenza. Tenendo conto anche degli eventuali riferimenti incrociati tra le stesse, e rapportando questi riferimenti al web tutto.

Agoago, giustamente, dice che il motore ragiona avendo come parametro di riferimento il web nella sua interezza. E questo sembrerebbe a prima vista escludere ogni speculazione che riguardi il singolo dominio/sito.

Ma troppe indicazioni ci portano a ritenere che google ragioni ANCHE in funzione del dominio di appartenenza. E allora, forse che un sito che tratti di cani non possa, nel contempo, parlare ANCHE di automobili, in due sezioni distinte del sito?

Io credo che questa sia una sfida già vinta, a Mountain View. Non ci vuole molto, del resto; e chi dice che i grandi portali non abbiano contenuti di qualità? Semmai è vero il contrario!

La domanda che deriva da questo ragionamento diverrebbe dunque: meglio avere un portale che parli sia di cani che di automobili, o un sito sui cani E uno sulle automobili?

Questa domanda però è ingiusta, in quanto prescinde dall'appeal che il "marchio" del portale ha sui visitatori, e da tutte le altre implicazioni legate al trattare più argomenti, anche semanticamente lontani, su uno stesso sito.

Io personalmente non credo che Google (o chi per esso) abbia interesse a penalizzare, tanto per dirne una, una testata giornalistica che, per definizione, tratta argomenti molto distanti tra loro.

Se voi foste il motore, come interpretereste un sito che tratta parecchi argomenti distanti tra loro?
Vi basereste: sul Trust, sull'attinenza relativa alla pagina relativamente alla sezione (altre pagine attinenti) del sito, sull'attinenza delle frasi contenute in un sito col resto delle frasi provenienti dal sito nella sua interezza, sul rapporto delle stesse con le frasi contenute in altre pagine/sezioni/siti nel web?

E come interpretereste le frasi retoriche? Andrebbero, in linea teorica: penalizzate, ritenute ininfluenti, premiate algoritmicamente? Nell'ultimo caso, in che modo?

P.s. "Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali." ...:D

Nei prossimi giorni rielaboro le questioni più "tecniche" (tra virgolette) legate al prhase rank.

morea67

Buongiorno a tutti.

Leggo con enorme piacere questo post. Davvero molto interessante. Anche perche conferma e non smentisce quanto da me notato nel come google stia indicizzando il web.
Premetto che non sono un seo, che di algoritmi non ne capisco un "H", ma senza ombra di dubbio ho iniziato a notare questo modello di indicizzazione da almeno sei mesi ad oggi, e per una semplice logica deduttiva posso affermare che google indicizza per frasi.
L'intento del buon googlito è senza dubbio quello di dare risposte agli utenti, risposte sempre piu precise e aggirare lo spam. Ovvio.
Bene, con questi nuovi algoritmi ci riesce, eccome se ci riesce, per un semplice motivo.

Taglia la testa al toro, tutta di un colpo.

Consideriamo da un punto di vista logico cosa determini lo spam. Altro non determina che una serie di pagine che non hanno un valore di contenuti, quindi nessuna risposta vera per gli utenti, quindi nessun valore per google.Anzi l'esatto contrario.
Quindi, spam vuol dire morte di un motore.
No riuscire a dare gratuitamente (si fa per dire) ad un utente/cliente la risposta che cerca.
Bene. Se quindi indicizzo per frasi, e non credo che sia piu o meno importante che un sito sia fatto di 10-100-1000 e piu pagine, indicizzo contenuti che "costringono" chi li redige a scriverli.
Scrivere comporta tempo, scrivere comporta studio, scrivere comporta conoscenza di un tema, di un oggetto di un servizio etc etc.
Bene, potrei anche in questo caso mettermi a creare diciamo "spam" perche no. MA per farlo stavolta devo erudirmi sulla materia.
Voglio fare un sito per mettere i mie annunci adsense..bene..mi devo erudire..conoscere e scrivere. E quel sito "che sia o meno iimportante per l'utente finale" darà comunque una risposta.
E qui entrano in gioco gli altri algoritmi che danno piu o meno importanza al sito.

A me sembra cosi logico che non ci vedo nulla di che in questo algoritmo, se non che una logica ricerca da parte di un motore di fare il suo mestiere.
E non credo che neanche ci si debba arrovellare cosi tanto sul come interpretare l'algoritmo, perche se lo interpreti cerchi unicamente di aggirarlo in qualche maniera, se invece scrivi contenuti scritti bene, attinenti a ciò che l'utente cerca E A CIò CHE VUOI OFFRIRE, be.....viene da se che sarai indicizzato e anche bene e anche in poco tempo.

E non credo, tanto per fare un esempio, che i blog ed i forum abbiano avuto questo successo perche vengono indicizzati a se.....nono.
Credo proprio perche corrispondono esattamente a quanto definito da questo algoritmo, ne rappresentino l'esempio concreto, spontaneo e semplice che possa esistere sul web.
E se fossi google la prima cosa che farei quando trovo un sito e passargli sopra con questi algoritmi, ancora prima del trust o del page.
Se fossi Googlito userei un ordine del genere:

prhase rank > page rank > trust rank = una serp molto pulita

A volte guardo con attenzione e cerco di calArmi nella testa dell'utente con ciò che scrive come chiave di ricerca. Ci sarebbero tanti esempi da fare ma le necessità, a parte quelle generalisticha legata al mio settore di richiedere un prestito, sono molteplici. Ovvio quella di richiedere un prestito rappresenta l'80% delle richieste, ma ciò che fa crescere il mio sito per google è il restante 20%.
Bene, l'utente fa richieste anche molto precise composte da frasi ben circostanziate ad un determinato argomento. Sta cercando una risposta ad una sua necessità.

Forse sarà banale, ma è reale che se un cliente chiede come si calcola il tasso di interesse la migliore pagina che si piazzerà sul web sarà quella non che parla del tasso di interesse o che sia un semplice calcolatore, ma inizia a parlare di come è nato il sistema bancario, di come si è giunti alle attuali formulazioni del taeg, tan..bla bkla bla, delle formule che lo calcolano (matematica finanziaria e se mi piazzo anche li con le mie pagine che si fa!!!!cavolo appena google si accorge che le mie visite muoiono perche chi ricerca matematica finanziaria non sa che farsene del mio sito-----devo ovviare, mettiamoci una borsa di studio, mettiamoci qualcosa che dia a quello studente una motivazione in piu a guardare le mie pagine - mettiamoci una offerta di stage per giovani che studiano la matematica finanziaria - bene, se i miei accessi tengono, google mi terrà anche li), di come si applica, degli organi che controllano e che regolano, delle leggi etc e tutti i calcolatori per ogni esigenza...etc.

Certo che tutto questo lavoro costa fatica, risorse, tempo. E quindi cio che rende di piu viene settato per primo e controllato piu spesso, e cio che rende di meno sempre id meno.
Ovvio no!!!!!
Sempre se fossi googlito se una determinata ricerca mi vale xx€ e un'altra me ne vale XXXX€, ovvio che seguo piu la seconda che la prima...Non vi pare logico.
Mica googlito non hai il suo ROI e settato per parole chiave (ops , reminiscenze - frasi chiave)

E mi sta costringendo, e ben venga, a riscrivermi pagina per pagina quelle già scritte. Tempo di lavoro. una pagina al giorno. Ed ogni volta che la termino quella pagina sale. Incredibile ma vero. E perche inizialmente avevo scritto 30 pagine per frasi e le altre per parole. Bene.
quelle per parole manco le prende in considerazione, anzi mi dice cortese " te le indicizzo ma essendo un po ripetuti i concetti delle prime 30 se le vuoi vedere clicca sui risultati omessi". E non te le banno, non è necessario. Sono fatte bene, sono pulite, ma mi stai ripetendo un concetto già espresso.
E quindi mi applico e ogni due giorni ne rifaccio una (che fatica scrivere:-), ma mi da una mano in questo googlito, e si.

E si, perche le ha indicizzate, anche se le ha messe in 300 posizione, ma ci sono, e per frasi che manco mi erano passate per la testa ( e certo ne adword ne search di yahoo me le mostrano, fossero scemi a mostrarmele - ma le hanno, eccome se le hanno e non mi dilungo nel perche:-).
E devo essere ancora piu sincero frasi che possono portarmi clienti.
Devo solo lavorarci su.

Meditate e scrivete gente. Senza programmi, scrivete qualcosa di autentico. Il posizionamento è il marketing vanno a braccetto.

Un caro saluto.

Ps. questo post sè indicizzato da google. Bene, sono proprio curioso di vedere in quali ricerche attinenti al mio settore lo riporterà, perche sono già certo che lo riporterà in frasi di ricerca del mio settore (avendo inserito una decina di righe lo farà per certo).
Ma proprio tanto curioso. Meno male che sul forum gt ci passa spesso e fà in fretta. Non dovrò attendere parecchio per vederlo e per studiare:-)

everfluxx

a spam document will have an excessive number of related phrases

matteo

Rispondo con enorme ritardo ad uno dei topic più interessanti degli ultimi tempi.

Se permettete sposto il discorso da analisi > algoritmo ad analisi > algoritmo_che_cerca_di_pensare_come_un_utente.

Google negli ultimi anni non ha fatto altro che puntare su qualità e user experience, anzi fin dall’inizio ha puntato moltissimo su visual appeal della home page e soprattutto della SERP. Ha preso concetti e assiomi di usabilità, interfaccia utente, web design e architettura, gli ha testati e applicati meticolosamente.
Ci tiene così tanto a soddisfare l’utente, che spesso non mostra pemium position se non sono realmente valide, se non le considera rilevanti preferisce non guadagnarci.

E’ evidente che se l’obbiettivo è assolvere ad una query nel migliore dei modi, non basta proporre dei buoni risultati, ossia quei siti che per una serie di fattori on e off site risultano essere rilevanti per quella query. E’ evidente perché lo proviamo tutti, quotidianamente, le nostre ricerche si fanno sempre più specifiche, le nostre aspettative sempre più elevate, e il tempo a disposizione invece è sempre meno.

Quello che Google sa, è che se ci porta su un sito “verticale” su di un argomento, è più probabile che soddisferemo il nostro bisogno, sa anche che un sito verticale e ricco di contenuti, ben organizzati, è quasi certamente frutto di una persona che oltre ad essere competente su quel argomento, ha la capacità di renderlo facilmente leggibile e comprensibile per l’utente.

Però credo che questo discorso si possa estendere anche ai portali, se ben strutturati ed organizzati in maniera gerarchicamente corretta, possono funzionare benissimo come un agglomerato di tanti siti verticali.

Tornando ai siti monotematici, se (e sono quasi sicuro ce l’abbia) agoago ha ragione, Google non farà altro che applicare tecniche e metodi volti a migliorare l’user experience, a proporre effettivamente quello che l’utente cerca. Per chi si deve promuovere la strada più facile è biddare per la premium position su kws molto specifiche, con landing page di qualità, dato che in questo caso il quality score di adwords è sicuramente più “tollerante”.

Per quanto riguarda invece i risultati organici, bisognerà lavorare molto sull’architettura del sito, tale da rendere ogni area tematica forte, rilevante e verticale. Fatto questo bisognerà progettare pagine che siano pensate come tante landing page, ognuna contente elementi/frasi-chiave/parole-chiave/contenuto testuale e non, in grado di assolvere ai bisogni dei nuovi utenti e quindi del nuovo algoritmo.

everfluxx

a spam document will have an excessive number of related phrases

;););)