[Brevetti Google] Google PhraseRank

paocavo

Ho un suggerimento per Cavone: Un tool che analizza i testi dei primi cento documenti di una derminata serp e ne estrapoli le frasi rilevanti (su tutto il campione) magari creando anche dei cluster con frase padre e frasi correlate...

Potemmo cosi' simulare (in piccolo) il MDR nella ricerca delle frasi rilevanti e di quelle corrlate di maggior forza da utilizzare per i ns testi...

ci sto già lavorando nel (pochissimo) tempo libero...;)

paocavo

@nbriani said:

Altro punto interessante e da capire del brevetto è il suo utilizzo nel determinare documenti duplicati (qui al punto 0023): mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?
Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )

Sarebbe interessante il parere di Low ...

agoago

Nbriani scrive:

"- il primo punto fondamentale: come si riconoscono le frasi di un testo di un documento ipertestuale ? .. quali sono i concetti base? l'uso della punteggiatura, l'utilizzo delle congiunzioni , delle stopwords, l'utilizzo dei tag h1, h2, h3 o altro, come cambia o come va reinterpretato?
e correlato, come si distinguono le frasi in una query?"

E' la domanda giusta, la prima domanda che ci si deve porre.
Ho conoscenza di alcune discussioni che ipotizzano-consigliano le stopkey e le congiunzioni (oltre alla classica punteggiatura) come parametro ulteriore per definire-limitare una frase (pezzi di frasi magari dentro un frase piu' lunga).
E' una scelta importante fatta a priori da chi opera in questo settore, ma non c'e' una regola comune.
Per certo questa scelta condizionera' ogni risultato finale.
Questo aspetto e' importante, perche' e' la classica variabile-scelta che, essendo personale, non permette a priori, a nessuno di noi, di esser certo di come si comportera' in merito un motore.
Credo sia la discussione piu' importante dell'intera faccenda, e per discuterne non bisogna essere degli esperti. Per questo motivo e' difficile trovare un accordo comunemente ritenuto valido.

"- cosa possiamo dire e come possiamo ragionare , in relazione alla costruzione di un testo, pensando che il MDR esegue le sue analisi di rilevanza e di indicizzazione delle frasi a livello globale e non sul ns singolo testo .... domanda: cio' vuol dire che si devono utilizzare possibilmente frasi a) corrette b) diffuse c) tipicamente legate all'argomento ????"

Le frasi devono essere corrette, indubbiamente.
Per una verifica da poveri io uso word office, lavorando man mano sulle parole sottolineate di rosso.
Sul diffuso non mi esprimo, credo sia indifferente... diffuso vuol dire che e' corretto, ma basta che un originale sia corretto e varra' anche di piu'.

Legate all'argomento... e' il salto di qualita', la vera rivoluzione.

"- Un altro punto cruciale è quindi il concetto legato alla individuazione di frasi "buone" (e frasi "Cattive ") ...cioè frasi con sufficente frequenza e simile tipologia di utilizzo. Vale quanto sopra?"

Le frasi buone sono quelle frasi che contengono termini in tema con l'argomento trattato dal sito. Rinforzano le key a tema che le frasi contengono al loro interno.

"- Poi dovremo parlare di criteri di rilevanza e classificazione di frasi : basterà utilizzare gli stessi criteri che utilizzavamo per le keywords? (prominenza, presenza in tag precisi, url, dominio.... ecc)"

No, il discorso e' simile ma si complica. Se una frase tratta cani in un sito di cani vale 10, se tratta automobili in un sito di cani vale 1.
Diciamo che prima una key in una pagina prendeva valore dalla sua pagina di appartenenza cosi' come ora una frase in una pagina prende valore dalla corrispondenza tra il suo tema ed il tema del sito.

"-Parlando poi di co-occorrenza di frasi il brevetto parla chiaramente di cluster di concetti e di ranking di documenti legati alla presenza di frasi correlate aspettate all'interno di un documento... come individuare le migliori frasi correlate?"

Ad occhio e croce, stabilito il tema prevalente in un sito si valorizza ogni frase valutando se tratta o meno quel dato argomento.

"...mi pare di capire che ogni documento (di un dominio?) viene associato ad un numero limitato di "sentenze" (formate da frasi correlate intorno ad un concetto) e che indicizzazioni successive di documenti che matchano le stesse sentenze verranno considerate contenuto duplicato.... questo vuol dire cercare di caratterizzare le pagine di un sito per "sentenze" ?"

Un esempio, una domanda.
Io wm A scrivo una frase sui cani (per primo) e la pubblico sul mio sito. Sito di scarso valore che tratta di automobili.
Poi arriva il wm B con un sito di alto valore e la riporta identica sul suo sito.
Sito pero' che tratta di hotel.
Poi arriva il wm C e la copia sul suo sito di medio valore, sito pero' che tratta di cani.
Chi sara' in cima alle serp per quella frase?
Il futuro e' C, prima era A o forse B.

"- Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ... ( o una "povera" e semplice directory? )"

Directory, blog e siti che ospitano spazi gratuiti non saranno penalizzati oltremodo, in quanto da anni sono valutati a parte.
Anche lo span non ne risentira', se sara' praticato dominio per dominio, ogni dominio con un suo tema molto specifico, con una o 2 keyword trattata al massimo.

"Voi che dite?"

E' una rivoluzione, e' il classico algoritmo che ci si aspetta prima o poi da Google.
Google ha un suo modo di intervenire-condizionare-interpretare il web un po' fascistoide, a volte quasi arrogante, a dir poco presutuoso... al limite dell'indisponente, molti diranno... tutta invidia! E forse e' cosi'.
Questo atteggiamento e' tipico delle vere stars, perche' sanno di essere tali.

Perche' anche questa ennesima volta Google ha pieno diritto di ritenersi star?

--

Il rinforzo reciproco ci spiega come una frase valga di piu' rispetto ad un'altra frase contenuta in uno stesso documento a seconda che contenga nel suo interno nessuna, poche o tante parole di valore.

Il rinforzo reciproco ci spiega come una parola valga di piu' rispetto ad un'altra parola a seconda che sia-appartenga-appaia in frasi di basso, medio, alto valore.

Rinforzo reciproco, appunto.

Per semplificare il concetto potremmo dire:

"Un termine è tanto più rilevante quanto più è elevato
il numero di frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante
quanti più termini rilevanti essa contiene."

Questo assioma e' perfetto per dare l'idea di base di cosa stiamo parlando, ma in pratica:

"Un termine è tanto più rilevante quanto più è elevato,
il numero moltiplicato per il valore medio, delle frasi rilevanti a cui appartiene,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevato
il numero moltiplicato per il valore medio, dei termini rilevanti che essa contiene."

Andando oltre si potrebbe ipotizzare:

"Un termine è tanto più rilevante quanto più è elevata la sua vicinanza ad un termine di valore superiore,
allo stesso tempo, una frase è tanto più rilevante quanto più è elevata la sua vicinanza ad una frase di valore superiore."

Questi concetti, apparentemente logici e coerenti, in realta', nella realta', risentono di un limite-difetto che in pratica ne annulla i benfici.

Per supplire a questa mancanza-limite-difetto dovremmo introdurre un ulteriore concetto-assioma:

"Un termine o una frase è tanto più irrilevante quanto più si allontana dal valore del picco della gaussiana disegnata dai valori di tutti i termini e di tutte le frasi di un documento.

Per capire questo concetto pensiamo ad un sito che tratti di cani, ed ad una sua pagina che contenga la seguente frase:

I cani spesso gironzolano con altri cani, cani che a volte mordono quei cani che si comportano veramente da cani!

Si capisce al volo come questo ultimo assioma serva a ridimensionare-escludere alcune frasi o termini in caso di spam-forzature (volute o meno).

Tornando al discorso del perche' Google sia una star, possiamo tranquillamente dire che lo sia perche' Google applica alcune, tutte, moltre altre di queste "regole" partendo dal presupposto che un documento non sia solo una pagina, un solo sito, ma il web tutto.

Google e' in grado di pesare una nostra frase considerando come fosse un unico documento tutto il web.

Non la frase in una nostra pagina, non una frase in un nostro sito, ma una frase nel web.

Veniamo ai soldoni, a quello che di fatto interessa ai seo.

Non sappiamo cosa e come Google consideri una frase a se stante.
Non sappiamo quali regole precise Google applichi per calcolare il reciproco rinforzo, delle frasi e dei termini.
Non sappiamo quando un dato valore per Google diventi spam.
Sappiamo che per quanto noi potremmo analizzare-pesare le frasi di un nostro sito non avremo mai un'idea precisa del loro valore, noi lavoriamo per pagine-siti, Google per tutto il web.

Detta cosi' ci si scoraggia, non si sa nulla, se non poca teoria, e pertanto non si sa come raccappezzarsi.

Ora, dopo tutta questa filippica, i pochi irriducibili esausti che hanno letto tutta la pappardella si aspettano come minimo che un coniglio spunti dal cappello.

Il problema e' che non solo ci si aspetta il coniglio, ma giustamente, essendo dei professionisti seri, ci si aspetta anche di come e del perche' il coniglio spunti dal nulla.

Chiedo scusa, ma stanchissimo mostro il coniglio e scappo, nei prossimi post, se interessati, discuteremo del come e del perche'.

Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali.

Che fregatura... chi ha siti assolutamente monotematici, chi ha un sito di poche pagine, chi ha quelle poche pagine lunghe ed esaustive, chi ha scritto ogni suo testo di proprio pugno?

Eravamo abituati a conoscere un nuovo algoritmo per i titoli e cambiavamo i titoli... per la density e cambiavamo la density, un nuovo trucco per nascondere il testo e ci adeguavamo... ma era sempre scontato che si dovesse-potesse andare avanti e non che si dovesse ridimensionare tutto.

Sito con tante pagine significa sito con tante frasi.
Sito con tante frasi significa sito con tanti temi.
Sito con tanti temi significa sito con tante keyword diverse.
Sito con tante keyword diverse significa frasi con basso valore, frasi non significative.
Sito con frasi poco significative significa keyword non valorizzate nel loro interno.

Sito con tante frasi ma un unico tema significa stesse keyword ripetute ovunque.
Stesse keyword ripetute in tante frasi significa spam.

Il reciproco rinforzo per tantissimi wm diventera' man mano reciproca penalizzazione.

Google, nel caso in discussione, non ha fatto che applicare la formula per bollire il riso in bianco. Formula che pero' terra' conto anche di dove e da chi ogni chicco di riso viene prodotto e cucinato sul web.
Da qui Google star!!

Ultimissima considerazione.
Pensate alla moda.
Pensate al design.
Etc.

In molti settori si vive di cicli e ricicli.

Ivan Graziani, avrebbe detto tricicli (ma avrebbe anche potuto aggiungere catarro che andava bene lo stesso, Galileo Galilei dei nostri tempi).

I motori di ricerca non sono da meno.

Piu' sei grosso piu' vali, poi piu' sei originale piu' vali, poi piu' sei specifico piu' vali, piu' sei specifico e piccolo piu' vali, piu' sei specifico ed orginale piu' vali, piu' sei specifico originale grosso e lincato a tema e piu' vali, piu' sei specifico definito ma esauriente ed hub e piu' vali... via discorrendo.

Ogni 6 mesi mediamentre spostano i soliti mobili annunciando un nuovo arredamento, ma a forza di spostarli prima o poi si ritroveranno con i mobili posizionati nella posizione di partenza. Buona cosa del resto.

Chiudo il post ringraziando di cuore Paocavo ed uMoR, per validi motivi miei.
Due persone che stimo (e sia ben chiaro, mi piace la gnocca :)).

everfluxx

A spam document is identified based on the number of related phrases included in a document.
[...]
From the foregoing, the number of the related phrases present in a given document will be known. A normal, non-spam document will generally have a relatively limited number of related phrases, typically on the order of between 8 and 20, depending on the document collection. By contrast, a spam document will have an excessive number of related phrases, for example on the order of between 100 and 1000 related phrases. Thus, the present invention takes advantage of this discovery by identifying as spam documents those documents that have a statistically significant deviation in the number of related phrases relative to an expected number of related phrases for documents in the document collection.

[grassetto mio]

nbriani

@Everfluxx said:

[grassetto mio]

Multiple index based information retrieval system (20060106792) Assigned to Google
Phrase-based searching in an information retrieval system (20060031195) Assigned to Google
Phrase-based indexing in an information retrieval system (20060020607)
Phrase-based generation of document descriptions (20060020571)
Phrase identification in an information retrieval system (20060018551)
Detecting spam documents in a phrase based information retrieval system( 20060294155)

Everfluxx, certo ... ma quella parte si riferisce a solo uno dei brevetti (l'ultimo qui sopra e che fanno tutti capo a Anna Lynn Patterson, ex archive.org ora google) e che riguardano "l'ingegnerizzazione" di molti aspetti (non solo quelli legati all'individuazione dello spam) che ruotano intorno alla realizzazione di un MDR basato su un indicizzazione per frasi
(dove indicizzazione è intesa esattamente per cio' che è ...cioè il modo o meglio, la tecnica di archiviazione dei "contenuti spiderizzati" e che influenza fortemente la tipologia di algoritmi successivamente applicabili per il ranking e la ricerca dei migliori documenti).

Mi quoto sulla parte legata allo spam: >

Infine lo spam: mi pare di capire che il metodo si riferisca allo spam da "long tail spam engine" ... si parla infatti di siti individuatri grazie all'elevato (fuori deviazione standard) numero di "Frasi buone" presenti... se la media è 30/40 per sito probailmente un sito che ha 1000/2000 cluster di frasi è probabile che sia un bello spam ...

Nicola

petro

Finalmente sono riuscito a leggere per intero il thread (non ancora i brevetti per intero, ma lo farò nei prossimi giorni).

L'impressione che ricavo dalla lettura, a caldo, è che verranno (forse ingiustamente?) penalizzati quei siti che presentano sezioni differenti su temi differenti, tipicamente i grandi portali generalisti.

Questo, a meno che Google non abbia in cantiere (o già sui server di produzione) un algo che definisce e differenzia anche le pagine di un sito, per sezione di appartenenza. Tenendo conto anche degli eventuali riferimenti incrociati tra le stesse, e rapportando questi riferimenti al web tutto.

Agoago, giustamente, dice che il motore ragiona avendo come parametro di riferimento il web nella sua interezza. E questo sembrerebbe a prima vista escludere ogni speculazione che riguardi il singolo dominio/sito.

Ma troppe indicazioni ci portano a ritenere che google ragioni ANCHE in funzione del dominio di appartenenza. E allora, forse che un sito che tratti di cani non possa, nel contempo, parlare ANCHE di automobili, in due sezioni distinte del sito?

Io credo che questa sia una sfida già vinta, a Mountain View. Non ci vuole molto, del resto; e chi dice che i grandi portali non abbiano contenuti di qualità? Semmai è vero il contrario!

La domanda che deriva da questo ragionamento diverrebbe dunque: meglio avere un portale che parli sia di cani che di automobili, o un sito sui cani E uno sulle automobili?

Questa domanda però è ingiusta, in quanto prescinde dall'appeal che il "marchio" del portale ha sui visitatori, e da tutte le altre implicazioni legate al trattare più argomenti, anche semanticamente lontani, su uno stesso sito.

Io personalmente non credo che Google (o chi per esso) abbia interesse a penalizzare, tanto per dirne una, una testata giornalistica che, per definizione, tratta argomenti molto distanti tra loro.

Se voi foste il motore, come interpretereste un sito che tratta parecchi argomenti distanti tra loro?
Vi basereste: sul Trust, sull'attinenza relativa alla pagina relativamente alla sezione (altre pagine attinenti) del sito, sull'attinenza delle frasi contenute in un sito col resto delle frasi provenienti dal sito nella sua interezza, sul rapporto delle stesse con le frasi contenute in altre pagine/sezioni/siti nel web?

E come interpretereste le frasi retoriche? Andrebbero, in linea teorica: penalizzate, ritenute ininfluenti, premiate algoritmicamente? Nell'ultimo caso, in che modo?

P.s. "Il coniglio in questione e' un sito monotematico formato da pochissime pagine di lunghezza medio lunga, 25-45k di testo, frasi originali." ...:D

Nei prossimi giorni rielaboro le questioni più "tecniche" (tra virgolette) legate al prhase rank.

morea67

Buongiorno a tutti.

Leggo con enorme piacere questo post. Davvero molto interessante. Anche perche conferma e non smentisce quanto da me notato nel come google stia indicizzando il web.
Premetto che non sono un seo, che di algoritmi non ne capisco un "H", ma senza ombra di dubbio ho iniziato a notare questo modello di indicizzazione da almeno sei mesi ad oggi, e per una semplice logica deduttiva posso affermare che google indicizza per frasi.
L'intento del buon googlito è senza dubbio quello di dare risposte agli utenti, risposte sempre piu precise e aggirare lo spam. Ovvio.
Bene, con questi nuovi algoritmi ci riesce, eccome se ci riesce, per un semplice motivo.

Taglia la testa al toro, tutta di un colpo.

Consideriamo da un punto di vista logico cosa determini lo spam. Altro non determina che una serie di pagine che non hanno un valore di contenuti, quindi nessuna risposta vera per gli utenti, quindi nessun valore per google.Anzi l'esatto contrario.
Quindi, spam vuol dire morte di un motore.
No riuscire a dare gratuitamente (si fa per dire) ad un utente/cliente la risposta che cerca.
Bene. Se quindi indicizzo per frasi, e non credo che sia piu o meno importante che un sito sia fatto di 10-100-1000 e piu pagine, indicizzo contenuti che "costringono" chi li redige a scriverli.
Scrivere comporta tempo, scrivere comporta studio, scrivere comporta conoscenza di un tema, di un oggetto di un servizio etc etc.
Bene, potrei anche in questo caso mettermi a creare diciamo "spam" perche no. MA per farlo stavolta devo erudirmi sulla materia.
Voglio fare un sito per mettere i mie annunci adsense..bene..mi devo erudire..conoscere e scrivere. E quel sito "che sia o meno iimportante per l'utente finale" darà comunque una risposta.
E qui entrano in gioco gli altri algoritmi che danno piu o meno importanza al sito.

A me sembra cosi logico che non ci vedo nulla di che in questo algoritmo, se non che una logica ricerca da parte di un motore di fare il suo mestiere.
E non credo che neanche ci si debba arrovellare cosi tanto sul come interpretare l'algoritmo, perche se lo interpreti cerchi unicamente di aggirarlo in qualche maniera, se invece scrivi contenuti scritti bene, attinenti a ciò che l'utente cerca E A CIò CHE VUOI OFFRIRE, be.....viene da se che sarai indicizzato e anche bene e anche in poco tempo.

E non credo, tanto per fare un esempio, che i blog ed i forum abbiano avuto questo successo perche vengono indicizzati a se.....nono.
Credo proprio perche corrispondono esattamente a quanto definito da questo algoritmo, ne rappresentino l'esempio concreto, spontaneo e semplice che possa esistere sul web.
E se fossi google la prima cosa che farei quando trovo un sito e passargli sopra con questi algoritmi, ancora prima del trust o del page.
Se fossi Googlito userei un ordine del genere:

prhase rank > page rank > trust rank = una serp molto pulita

A volte guardo con attenzione e cerco di calArmi nella testa dell'utente con ciò che scrive come chiave di ricerca. Ci sarebbero tanti esempi da fare ma le necessità, a parte quelle generalisticha legata al mio settore di richiedere un prestito, sono molteplici. Ovvio quella di richiedere un prestito rappresenta l'80% delle richieste, ma ciò che fa crescere il mio sito per google è il restante 20%.
Bene, l'utente fa richieste anche molto precise composte da frasi ben circostanziate ad un determinato argomento. Sta cercando una risposta ad una sua necessità.

Forse sarà banale, ma è reale che se un cliente chiede come si calcola il tasso di interesse la migliore pagina che si piazzerà sul web sarà quella non che parla del tasso di interesse o che sia un semplice calcolatore, ma inizia a parlare di come è nato il sistema bancario, di come si è giunti alle attuali formulazioni del taeg, tan..bla bkla bla, delle formule che lo calcolano (matematica finanziaria e se mi piazzo anche li con le mie pagine che si fa!!!!cavolo appena google si accorge che le mie visite muoiono perche chi ricerca matematica finanziaria non sa che farsene del mio sito-----devo ovviare, mettiamoci una borsa di studio, mettiamoci qualcosa che dia a quello studente una motivazione in piu a guardare le mie pagine - mettiamoci una offerta di stage per giovani che studiano la matematica finanziaria - bene, se i miei accessi tengono, google mi terrà anche li), di come si applica, degli organi che controllano e che regolano, delle leggi etc e tutti i calcolatori per ogni esigenza...etc.

Certo che tutto questo lavoro costa fatica, risorse, tempo. E quindi cio che rende di piu viene settato per primo e controllato piu spesso, e cio che rende di meno sempre id meno.
Ovvio no!!!!!
Sempre se fossi googlito se una determinata ricerca mi vale xx€ e un'altra me ne vale XXXX€, ovvio che seguo piu la seconda che la prima...Non vi pare logico.
Mica googlito non hai il suo ROI e settato per parole chiave (ops , reminiscenze - frasi chiave)

E mi sta costringendo, e ben venga, a riscrivermi pagina per pagina quelle già scritte. Tempo di lavoro. una pagina al giorno. Ed ogni volta che la termino quella pagina sale. Incredibile ma vero. E perche inizialmente avevo scritto 30 pagine per frasi e le altre per parole. Bene.
quelle per parole manco le prende in considerazione, anzi mi dice cortese " te le indicizzo ma essendo un po ripetuti i concetti delle prime 30 se le vuoi vedere clicca sui risultati omessi". E non te le banno, non è necessario. Sono fatte bene, sono pulite, ma mi stai ripetendo un concetto già espresso.
E quindi mi applico e ogni due giorni ne rifaccio una (che fatica scrivere:-), ma mi da una mano in questo googlito, e si.

E si, perche le ha indicizzate, anche se le ha messe in 300 posizione, ma ci sono, e per frasi che manco mi erano passate per la testa ( e certo ne adword ne search di yahoo me le mostrano, fossero scemi a mostrarmele - ma le hanno, eccome se le hanno e non mi dilungo nel perche:-).
E devo essere ancora piu sincero frasi che possono portarmi clienti.
Devo solo lavorarci su.

Meditate e scrivete gente. Senza programmi, scrivete qualcosa di autentico. Il posizionamento è il marketing vanno a braccetto.

Un caro saluto.

Ps. questo post sè indicizzato da google. Bene, sono proprio curioso di vedere in quali ricerche attinenti al mio settore lo riporterà, perche sono già certo che lo riporterà in frasi di ricerca del mio settore (avendo inserito una decina di righe lo farà per certo).
Ma proprio tanto curioso. Meno male che sul forum gt ci passa spesso e fà in fretta. Non dovrò attendere parecchio per vederlo e per studiare:-)

everfluxx

a spam document will have an excessive number of related phrases

matteo

Rispondo con enorme ritardo ad uno dei topic più interessanti degli ultimi tempi.

Se permettete sposto il discorso da analisi > algoritmo ad analisi > algoritmo_che_cerca_di_pensare_come_un_utente.

Google negli ultimi anni non ha fatto altro che puntare su qualità e user experience, anzi fin dall’inizio ha puntato moltissimo su visual appeal della home page e soprattutto della SERP. Ha preso concetti e assiomi di usabilità, interfaccia utente, web design e architettura, gli ha testati e applicati meticolosamente.
Ci tiene così tanto a soddisfare l’utente, che spesso non mostra pemium position se non sono realmente valide, se non le considera rilevanti preferisce non guadagnarci.

E’ evidente che se l’obbiettivo è assolvere ad una query nel migliore dei modi, non basta proporre dei buoni risultati, ossia quei siti che per una serie di fattori on e off site risultano essere rilevanti per quella query. E’ evidente perché lo proviamo tutti, quotidianamente, le nostre ricerche si fanno sempre più specifiche, le nostre aspettative sempre più elevate, e il tempo a disposizione invece è sempre meno.

Quello che Google sa, è che se ci porta su un sito “verticale” su di un argomento, è più probabile che soddisferemo il nostro bisogno, sa anche che un sito verticale e ricco di contenuti, ben organizzati, è quasi certamente frutto di una persona che oltre ad essere competente su quel argomento, ha la capacità di renderlo facilmente leggibile e comprensibile per l’utente.

Però credo che questo discorso si possa estendere anche ai portali, se ben strutturati ed organizzati in maniera gerarchicamente corretta, possono funzionare benissimo come un agglomerato di tanti siti verticali.

Tornando ai siti monotematici, se (e sono quasi sicuro ce l’abbia) agoago ha ragione, Google non farà altro che applicare tecniche e metodi volti a migliorare l’user experience, a proporre effettivamente quello che l’utente cerca. Per chi si deve promuovere la strada più facile è biddare per la premium position su kws molto specifiche, con landing page di qualità, dato che in questo caso il quality score di adwords è sicuramente più “tollerante”.

Per quanto riguarda invece i risultati organici, bisognerà lavorare molto sull’architettura del sito, tale da rendere ogni area tematica forte, rilevante e verticale. Fatto questo bisognerà progettare pagine che siano pensate come tante landing page, ognuna contente elementi/frasi-chiave/parole-chiave/contenuto testuale e non, in grado di assolvere ai bisogni dei nuovi utenti e quindi del nuovo algoritmo.

everfluxx

a spam document will have an excessive number of related phrases

;););)

ginoutzeri

sono rimasto piacevolmente impressionato dal livello della discussione e faccio a tutti i complimenti di dovere
Sono poco presente sul forum per i tempi "stretti" del mio lavoro da Programmatore/SEO
Avrei 10.000 commenti sulla discussione... ma penso che in fin dei conti scrivere bei contenuti, utili, chiari, con rimandi, completi, che possano addirittura esser linkati spontaneamente è sempre la miglior politica per non ritrovarsi fuori da un giorno all'altro...

cineasta

E il buon senso?

pierfrancesco99

@Cineasta said:

E il buon senso?

Quello è sottointeso:D

cineasta

Agoago, "Le frasi buone sono quelle frasi che contengono termini in tema con l'argomento trattato dal sito. Rinforzano le key a tema che le frasi contengono al loro interno."

Io mi chiedo se una scelta del genere non si sia la strada maestra per agevolare la proliferazione di spam engine tematici.

====

Secondo voi l'algoritmo in questione è già stato introdotto?
Ciao

micky

@"Nbriani" said:

E , lo dice il brevetto, non è la ripetizione di keyword a determinare cio' che è spam o meno (quei doc semplicemente non emergono) ma il "Phrase stuffing" (:D ) concetto con cui credo dovremmo confrontarci alla svelta... cioè documenti che contengono un immensità di frasi comuni correlate ad un argomento a rischiare il flag per Spam!

@"Everfluxx" said:

a spam document will have an excessive number of related phrases ;););)

Quindi secondo la vostra interpretazione o secondo il brevetto stesso, rischierebbe il flag per spam anche chi si dilunga, si ripete e "allunga il brodo" in un testo?

nbriani

Ciao Micky,

no, il mio parere è che il brevetto si riferisca a documenti che contengono una moltitudine di frasi "valide" (nel senso del brevetto) ma che molto probabilmente (cioè attraverso il raffronto con un valore standard) evidenziano proprio che non riguardano un solo argomento... tipico ad esempio degli spam engines...

In sostanza, se si identificano delle regole per definire un frase come "BUONA" (good phrases) , google è in grado di definire un numero medio di "frasi buone" per documento... (nel far questo prenderà in considerazione anche i documenti dove gli argomenti sono ben spiegati e pure ben "allungati" come dici tu) ... quindi penso che l'asticella per definire un documento come SPAM attraverso un algo del genere (ricordati che gg ne utilizza molti altri di metodi) debba essere necessariamente molto alta ...

A normal, non-spam document will generally have a relatively limited number of related phrases, typically on the order of between 8 and 20, depending on the document collection. By contrast, a spam document will have an excessive number of related phrases, for example on the order of between **100 and 1000 **related phrases.E' il concetto di "frase buona" che devi tenere bene in mente... probabilmente anche se tu infioretti un argomento quanto vuoi... difficilmente supererai un certo numero medio di "frasi buone" (ti ricordo che le buone sono quelle che anche ricorrono piu' di altri documenti semanticamente vicini)

Imho,

Nicola

micky

ciao Nicola :), non sono sicuro di aver capito bene; solo che se si setta un "limite" di frasi buone anche gli spammer possono regolarsi di conseguenza e tarare i loro algoritmi di costruzione testi proprio limitandone ad un numero ragionevole le frasi buone stesse.
Probabilmente sono io che continuo a non capire cosa voglia dire sostanzialmente questo phrase rank. Possiamo provare a spiegarlo e a ricapitolarne gli aspetti salienti in maniera semplice per i comuni mortali come me :)?

nbriani

@micky said:

... solo che se si setta un "limite" di frasi buone anche gli spammer possono regolarsi di conseguenza e tarare i loro algoritmi di costruzione testi proprio limitandone ad un numero ragionevole le frasi buone stesse.

embè? vorrà dire che avrai fatto proprio cio' che gg voleva.. Perchè dici questo come fosse una critica a quel sistema? anche il Keyword stuffing puo' essere determinato da un "limite" in qualche modo "settato" dal Mdr a cui dobbiamo stare attenti ad attenerci per non incorrere in effetti contrari..no? Se una keyword non ce l'hai nel testo ne in anchor non appari, se cè l'hai qualche migliaio di volte dappertutto sei in OOP ... sicuro !

Quindi non vedo cosa ci sia di diverso... solo che mentre attenersi alle "regole" del Keywords stuffing puo' essere abbastanza fattibile (vedasi l'uso dell'arma segreta del SEO... cioè il "buon senso" la cosa non è altrettanto immediata per il "Brevetto sul Phrase Rank" ....
[/QUOTE]

@micky said:

Probabilmente sono io che continuo a non capire cosa voglia dire sostanzialmente questo phrase rank. Possiamo provare a spiegarlo e a ricapitolarne gli aspetti salienti in maniera semplice per i comuni mortali come me :)?

Sai bene che quando fai di questi "assist" tu mi inviti a nozze... ma poi non ti lamentare degli pseudo "SEO" che fanno i post didascalici, definitivi e che si fanno "belli" attraverso forum e blog ....

Stavolta pero' ti consiglio di rileggere questo thred da cima a fondo perchè penso che contenga ed esprima molto bene il senso del brevetto (almeno per quanto riguarda me...) ... e gli interventi a volte di getto altre volte ben ponderati che vi sono da parte di molti dei piu' esperti e appassionati utenti del forum ne sono una conferma.

Comunque ci provero' a farti un riassunto lampo che vada nella direzione dell'aspetto che stiamo dibattendo cioè sulla rilevazione dello spam (che è solo una delle implicazioni del brevetto)

Si parla di "indicizzazione per frasi"

quindi di come possa essere diversa la fase di "indicizzazione" di un MDR se viene fatta per frasi e non per singole parole

Indicizzazione intendo proprio la creazione degli indici ... cioè dello strumento che consente al MDR di collegare la query al documento ...

ok?

Sono quindi indici di frasi non di parole

Per costruirli si individuano le frasi buone e le frasi non buone (diciamo trascurabili)

"Frasi buone" hanno tra l'altro la caratteristiche di prevedere la presenza di un certo numero medio di altre "frasi buone" (si parla in termini di media)

.. fra le varie implicazioni e caratteristiche che ha o avrebbe una tale architettura c'è n'è una nel brevetto che riguarda la rilevazione dello spam :

"un documento che contenga un grande numero di frasi buone, in una forma molto superiore alla media calcolata su l'indicizzazione di tutta la rete puo' essere flaggato come sospetto spam"

esattamente come avviene in una indicizzazione normale con le parole.. ma mentre prima si ragionava in termini di numero di volte in cui singole parole erano presenti oggi si parla (parlerebbe) di "Related good Phrases" ....

Insomma se parli di cani , di macchine o di pere userai un certo numero di frasi "tipiche" rispetto a tutti i documenti in rete che parlano di quegli stessi argomenti.... se il tuo doc pero' si discosta enormemente dalla media ... rischi di incorrere in penalizzazioni per spam....

Pensa all'esempio del Brevetto: argomento: "La casa Bianca" ora immagina tutti i documenti in rete che parlano della "La casa Bianca" quante related phrases avranno mediamente? (cioè quanti e quali altri argomenti vi sono collegati?) diciamo i presidenti, washington, clinton, i sigari (:D) e via e via ... concordi che sia ragionevole pensare che mediamente è possibile trovare un certo numero medie di frasi "buone presenti" ?
Ok.. allora immagina un doc parli della casa Bianca ma che contenga qualche migliaio di frasi buone in piu'.... spam?

Bo', sono stato abbastanza ermeticamente chiaro e riassuntivo sul mio punto di vista ?

Nicola

micky

sì Nicola sei stato chiarissimo :). Il topic l'avevo letto per intero intervento di Agoago compreso :D! Quello che mi lascia/lasciava perplesso era il fatto che se mentre uno "scrittore reale" deve proprio impegnarsi in negativo per incorrere nel keyword stuffing, lo stesso "scrittore reale" in un eccesso di verve potrebbe scrivere naturalmente un botto di frasi correlate ad un argomento ed essere erroneamissimamente tacciato come spammer. Tu mi dirai: no micky, guarda che per un numero alto di frasi correlate intendo proprio alto alto; e micky dice: benissimo allora cari spammer, invece di usare il 100% delle frasi correlate che il vostro algoritmo riesce a pescare, fermatevi al 66%, sparato a caso, soglia "ottima" di un documento ottimizzato per x keyword o phrases. Ma non può essere così semplice il discorso: probabilmente dietro c'è altro che ancora non riesco a comprendere :).

nbriani

@micky said:

s Ma non può essere così semplice il discorso: probabilmente dietro c'è altro che ancora non riesco a comprendere :).

Mah.. secondo me non è cosi' semplice nel senso che **tutti **i brevetti intorno al "Phrase Rank" hanno ben altro da dire che "semplicemente" segnalare lo Spam
... insomma si tratta di brevetti che modificano fortemente la struttura "classica" dell'indicizzazione per andare nella direzione della **qualità dei risultati e della semantica... ** poi puo' essere naturale che un brevetto del genere preveda anche aspetti legati alla individuazione dello Spam... ma mi pare **non **determinante ne decisivo rispetto al resto delle possibili novità...

Imho..

Nicola