TrustRank: il gioco di prestigio

emmebar

-----------------------------Sunto parte non tradotta----------------------------

L'idea di base è quella di riuscire ad identificare i siti buoni e separarli da quelli cattivi, nella parte che ho già tradotto è spiegato abbastanza bene quali sono le definizioni di buoni e cattivi.

Ora vediamo come "LORO" intendono fare.

Come prima cosa selezionano tramite un algoritmo i siti che sono sicuramente cattivi da quelli che sono forse buoni.

L'intervento di un esperto indica all'algoritmo quali sono tra questi ultimi quelli certamente buoni e quelli che sono certamente cattivi.

Con questo criterio vengono scelti un numero di siti campione dai quali si definirà il valore di trust rank di tutti gli altri siti.

Il documento parla di 200 siti ma questo numero è solo ipotetico, loro vogliono dimostrare che con 200 siti si può filtrare buona parte del web, ma cio non credo significhi che ne useranno esattamente 200.

Ora, dopo il pezzo che ho tradotto, vengono introdotti dei parametri che aggiustano la precisione dell'algoritmo.

Poi iniziano a spiegare l'algoritmo di Trust Rank con un pacco di formule matematiche. Tutto quanto detto sopra serve a scegliere il set di siti campione.

La cosa interessante per noi sta nella figura 4 che indica come viene passato il trust rank ai siti linkati dai siti campione ponendo 1 il valore di TR di un sito campione e ponendo che questo linki tre siti passerà ad ognuno 1/3 di TR se ne avesse linkati 2 avrebbe passato 1/2 di TR.

A questo problema del criterio con il quale sceglierli, fanno due ipotesi, la prima basata sul page rank inverso che in breve è questo:

Un approccio potrebbe essere quello di scegliere come pagine campione quelle (ovviamente tra le buone) basandosi sul numero di link in uscita seguendo cioè più link ci sono in uscita più una pagina è importante (sempre nella determinazione delle pagine campione), però si sono accorti che questo metodo comporterebbe dei problemi, in quanto (dopo una serie di dimostrazioni matematiche) non riuscirebbe a coprire correttamente tutte le pagine.

L'altro approccio è l'High Page Rank:

Assumendo che il valore che identifica una pagina come buona o cattiva sia lo stesso per tutte le pagine allora (dicono) è più importante analizzare le pagine che compaiono più in alto nei risultati delle ricerche (cioè quelle con il Page Rank più elevato), non solo questo ma attribuire un valore maggiore a quelle pagine che puntano ad altre con elevato PR.

Sino a quì la spiegazione della teoria, ora spegano l'esperimento che hanno fatto:

L'esperimento è stato fatto nell'agosto del 2003, per ridurre la sua complessità non lo hanno fatto a livello di pagine web ma a livello di siti web (comunque dicono che il funzionamento è lo stesso sia per pagine che per siti).

Hanno fatto una valutazione manuale di un tot di siti per vedere se le loro terie funzionano.

Per prima cosa hanno paragonato il page rank inverso e l'high page rank, accorgendosi che il sistema migliore per scegliere i siti campione era quello di usare il PR inverso.

Hanno ordinato i siti per valore di PR inverso poi si sono concentrati sui primi 25.000 controllandoli con l'oracle, la prima cosa che hanno fatto è stata quella di correggere alcuni errori, (gli venivano dati come buoni gli spam engine e loro li hanno rimossi dall'elenco) poi hanno rimosso tutti quei siti che non erano indicizzati nelle maggiori directory (yahoo, DMOZ ecc...) riducendo gli iniziali 25.000 a 7.900 di questi hanno valutato manualmente i primi 1.250 e ne hanno tra questi selezionati 178 da usare come siti campione riuscendo in questo modo ad ottenere il loro obbiettivo di lavorare con un ridotto numero di siti campione.

Ora spiegano come sono arrivati a questi 178 alla valutazione su una base di 1000 siti scelti secondo questo metodo:

Hanno preso i siti e li hanno messi in ordine di page rank li hanno divisi in 20 segmenti ognuno con il 5% del totale page rank.
cioè il primo segmento contenente 86 siti con alto PR, il secondo con i seguenti 665 (che valevano tutti assieme quanto i primi 86) e così via sino al 20° segmento contenente 5 milioni di siti con basso PR.

Hanno poi selezionato 50 siti random da ogni segmento poi hanno fatto una valutazione manuale per determinare se erano o meno spam. da tutto questo lavoro esce fuori un grafico da dove risulta che su 1000 siti ce ne erano 563 di buona reputazione, 37 di grandi organizzazioni (governativi etc..) 13 di pura pubblicità 135 con varie forme di spam, questi ultimi sono stati considerati i primi cattivi.

Questi 748 siti sono stati considerati il set di esempio i rimanenti 252 non erano utilizzabili per la valutazione per varie problematiche tipo:

-Pagine web personali 22
-Alias 35
-inesistenti 96
-Codifica orientale dei caratteri e altro 43.

Ecco i risultati ottenuti sulla base dei 178 siti campione selezionati.

Per prima cosa fanno un confronto tra Page Rank e Trust Rank:

Il risultato è presentato in due grafici che dimostrano come il trust rank riduca enormemente la presenza di spam nei segmenti più importanti, concentrandolo nei segmenti meno importanti ed aumenti la presenza di siti buoni nei segmenti più importanti.

In parole povere secondo loro la cosa funziona,

---------------------------------commento personale---------------

Credo di avere riassunto abbastanza bene quello che ho capito io, il fatto che ho riassunto non vuol dire che non intendo più tradurre questo documento, ho deciso di farlo con più calma e precisione, inserendo anche i grafici e le formule e poi lo renderò disponibile a tutti (La mia idea è di passarlo a Giorgio in pdf e Lui lo pubblicherà sul sito).

Io ritengo questo studio molto importante, sia che venga poi effettivamente applicato (per ovvie ragioni) ma anche se non dovesse mai essere usato avrebbe comunque il merito di farci capire quanto siano complicati i meccanismi che vengono usati dai moderni motori di ricerca e di insegnarci a valutare tutto ma proprio tutto quello che può influenzare il posizionamento dei nostri siti.

Buono studio a tutti !

paolo

@kerouac3001 said:

non è detto..probabilmente uno di questi HuB potrebbe essere dmoz..

siamo a posto, soprattutto con la velocità con cui funziona in Italia, faremo tempo a diventare vecchi prima che google si accorga di noi

senza pensare che chi ha un posto in dmoz si farà pagare salatissimo un OL

giorgiotave

Grazie per le traduzioni

emmebar

@giorgiotave said:

Grazie per le traduzioni

Prego, è stato un piacere

emmebar

Sviluppi?

Non lo so, può essere tutto ed il contrario di tutto, magari lo usano già in qualche maniera per vedere la qualità dei links che puntano ad un sito.

Per quello che ho capito io la questione dei siti "seed" va vista in maniera più ampia, lo studio si basa su 200, ma nulla vieta che Google ne impieghi molti di più o molti di meno, probabilmente ne troveranno per nazione, per lingua ecc.., quindi niente paradiso, solo una serie di siti giudicati autorevoli che porteranno beneficio ad altri siti a loro collegati.

Secondo me non soppianterà il PR (quello vero) ma sarà, o forse è già, un'altro delle centinaia di fattori che compongono l'algoritmo di Google.

Ovviamente questa è solo la mia opinione.

must

gia'.
non possiamo sapere cosa fanno di preciso al googleplesk.

pero' io posso ipotizzare che il trustrank (o qualcosa di molto simile) sia gia' in funzione. e dmoz ha un peso notevole.

perche' lo ipotizzo?

perche' per la mia key piu' competitiva i risultati dicono:

allinanchor:key competitiva: prima pagina
allintitle:key competitiva: prima pagina
key competitiva: non esisto
()

paolino

l'unica cosa sicura è che di sicuro non si sa niente e per quanto ne sappiamo google potrebbe già usare il Trustrank da un bel pò....

da un bel pò di tempo molti hanno notato che il PR ormai non influisce più come una volta sul ranking

il punto è che il PR è la misura della qualità dei link entranti e quindi dal valore del sito....in pratica google aveva visto giusto quando creò il PR dicendo che i fattori on-page non erano molto validi per il ranking e che bisognava guardare a quello "che gli altri siti pensano di te"....

alcuni dicono che nella formula di ranking si sia abbassato il peso dato al PR questo però vorrebbe dire tornare indietro e non credo google l'abbia fatto....

credo piuttosto che due sono le possibilità: o google usa un altro indice (oltre o al posto del PR) o il PR della barra è assolutamente fuorviante e fasullo....

must

come hai detto tu, google ci vide giusto con il PR, perche' i fattori on-site erano troppo manipolabili.
ma poi lo sono diventati anche i fattori off-line (leggi network di siti, scambi link), e quindi ha messo un freno con il localrank.
aggiunge il trustrank perche' sa quanto che in directory come dmoz (ma poi? quale altre?
:bho: ) non entra qualsiasi sito.

e a questi fattori aggiungine pure un altro migliaio

ziojo

Pensate che lo sconvolgimento delle serp dei mesi scorsi (meta' maggio e meta' giugno) puo' essere dovuto dall'entrata in vigore del nuovo brevetto trustrank che ha rivoluzionato tutto?

must

no, secondo me quello e' stato solo l'effetto di nuovi filtri antispam.

paolino

comunque in tutto il marasma che s'è creato c'è una sola cosa esatta: il PR della barra è una presa per i fondelli.....un modo per far chiacchierare la gente e purtroppo ancora oggi vedo post su altri forum dove si chiede link da PR 5 o PR 6 e cose del genere....

per esempio la freshness è più importante del PR (non è un caso che molti domini di 3° livello in testa nelle SERP si fanno linkare da blog PR 2-3)

altri siti invece con PR alti e/o linkati da PR alti stanno in basso nelle serp

ziojo

L'ultima parte della traduzione del testo sul trustrank parla che i link devono essere spontanei e quelli tutti dello stesso tipo sono a rischio di penalizzazione; allora i link del tipo "inserisci la tua struttura" ecc. che rilascia un codice da inserire ( del tipo www.bed-and-breakfast.it ) e che tali portali ricevono in serie a bizzeffe sono a rischio?
Rischiano anche i siti che linkano?

paolino

personalmente la vedo come una cretinata....se fai una ricerca nel settore adult in inglese vedrai che tutti i siti in testa alle serp sono delle linklist che si fanno linkare proprio tramite quei link "prefabbricati" del tipo copia e incolla

ziojo

@paolino said:

personalmente la vedo come una cretinata....se fai una ricerca nel settore adult in inglese vedrai che tutti i siti in testa alle serp sono delle linklist che si fanno linkare proprio tramite quei link "prefabbricati" del tipo copia e incolla
Evidentemente o la pagina sul trustrank non e' veritiera ed affidabile, o ci sara' un vero e proprio...prossimo cataclisma nelle serp

paolino

no la questione è diversa....i link tutti uguali saranno meno importanti di quelli organici ma questo non significa che i link tutti uguali penalizzeranno un sito, altrimenti certi settori come quello dell'hard subiranno un collasso....

è un pò come il fatto che i link reciproci valgono meno dei link unidirezionali

emmebar

@ZioJo said:

Evidentemente o la pagina sul trustrank non e' veritiera ed affidabile, o ci sara' un vero e proprio...prossimo cataclisma nelle serp

Non è questione se sia veritiera o meno, bisogna ricordarsi che lo studio di cui stiamo parlando è uno studio universitario, che poi Google ha in qualche modo inserito nei suoi brevetti.

Nessuno di noi poveri mortali sa se, quando, e quanta parte di quello studio venga o sia già stata utilizzata dal MDR.

L'unica cosa certa è che Google dichiara (almeno a parole) di voler spazzare lo spam dalle sue SERP, per ora c'è riuscito solo in parte.

Il problema credo sia proprio quello di riuscire con un algoritmo a separare i siti "buoni" da quelli "cattivi" senza penalizzare quelli che hanno una struttura da cattivi ma in realtà sono buoni.

paolino

infatti ha ragione emmebar....

eliminare tutti i siti che hanno dei bl stereotipati oppure tutti i siti che vengono linkati da blog sarebbe assurdo in quanto chiunque potrebbe linkare un sito in quel modo e così distruggere la concorrenza.....

il brevetto sul trustrank illustra un algoritmo teorico che per essere applicato nel mondo reale necessità di alcune modifiche non da poco....

al punto in cui siamo arrivati per quanto riguarda l'attività dei SEO restano solo poche semplici regole: aumento dei contenuti, dei BL, aggiungere dei link in uscita a qualche sito importante a tema, ottimizzare i fattori onpage di rilievo(title, h1, h2, alt tag, title nelle ancore, testo delle ancore, ecc...)

furio

allinanchor:key competitiva: prima pagina
allintitle:key competitiva: prima pagina
key competitiva: non esisto

Non sò se è il posto giusto visto che la discussione è un altra, comunque vorrei sapere a cosa si riferiscono sono quelle 3 righe in calce postate da must.

Se non è corretto il mio modo di chiedere spiegazioni per una frase letta ma non attinente al discorso gradirei delucidazioni su come fare

must

l'unica cosa che dovresti correggere e' il quote. cosi' si capisce subito che citi qualcosa detto da qualcun'altro.

ad ogni modo, guarda [url=http://www.giorgiotave.it/forum/viewtopic.php?t=1839]che bel post ha fatto kerouac3001

e io rosico.

alex685

Le intenzioni sembrano buone ma credo che la pratica sia ben differente e di difficilissimo utilizzo.
1- in realtà ancora non sappiamo gli effetti di questo algoritmo; che cambiamenti avverranno e quanto saranno importanti ai fini di un posizionamneto.
2- il fattore umano da non trascurare. mettere in campo un numero notevole di persone atte a controllare i siti spam rilevati dall'algoritmo sarà un'impresa non da poco e non so quanto commercialmente conveniente visto che google al momento rimane il leader indiscusso.

A mio giudizio si sta dando troppa importanza a questo "nuovo" algoritmo

Ciao Alex