• Community Manager

    Il TrustRank e le pagine "seme"

    Ecco un articolo di Beke sul [url=http://www.posizionamento-web.com/trustrank-pagine-seme.asp]trustRank e le pagine Seme

    Mi piacerebbe sapere cosa ne pensate 🙂

    :ciauz:

    AGGIUNTO: Modificato dopo la segnalazione di due attenti componenti dello Staff GT 😄


  • Super User

  • Super User

    WikiGT ha fatto danni 😄

    L'articolo di Beke è [url=http://www.posizionamento-web.com/trustrank-pagine-seme.asp]questo

    Ciao :ciauz:

    P.S. Preceduto al volo da Rinzi 😛


  • Community Manager

    Per le polemiche mosse da ArkaneFactor [url=http://www.giorgiotave.it/forum/viewtopic.php?t=9252]ecco il thread (dammi il tempo di spostare)

    Cosa ne pensate dell'articolo?


  • Super User

    L'ultimo aggiornamento del Paper che ha fornito lo spunto per l'articolo di Beke, risale al Febbario 2005. Sappiamo che Google ha registrato il marchio "Trustrank" poco tempo dopo, ma mi sembra che fosse una registrazione preliminare, tipo 'intent-to-use'.
    Che a Stanford abbiano realmente fatto questa cernita di siti 'seed' credo sia fuori discussione (tempo da perdere ne hanno a volontà da quelle parti).

    Il problema che ci si pone è se effettivamente l'algoritmo trustrank sia attualmente implementato come fattore di valutazione di un sito internet. A mio parere NO. E' plausibile pensare che quelli di Google stiano studiando un metodo alternativo al Pagerank (come tutti sappiamo non è impossibile farlo salire più o meno onestamente, o più o meno disonestamente), ma non credo che sarà il TR a sostituirlo definitivamente.

    Detto molto semplicemente, il Trustrank parte dal presupposto che i siti buoni non linkano ai siti cattivi, e i siti cattivi linkano spesso ai siti buoni per incrementare il proprio hub score (concetto, quello di hub score, o punteggio hub, chiarito molte volte dallo stesso beke su questo forum). Man mano che ci si allontana dai siti buoni (che tramite i link donano valore trust massimo), il valore trust diminuisce e quindi diminuisce la possibilità che un sito sia considerato anch'esso buono.

    Sicuramente è un principio meno exploitabile del Pagerank, ma fa affidamento all'essere UMANO. Il che rende il tutto più potenzialmente fragile. Per quanto i siti seed siano selezionati tra siti istituzionali e universitari e accademici, basta che UNO SOLO di questi siti giochi sporco, e l'intero database viene compromesso.

    Questo Google lo sa benissimo. Se mai dovesse essere implementato qualcosa di simile al TR, non sarà quello presentato nell'articolo. Potrebbe essere una buona alternativa il TOPICAL TRUSTRANK http://www.cse.lehigh.edu/~brian/pubs/2006/WWW/topical-trustrank.pdf

    Precisazioni: dire che secondo me attualmente, e neanche in futuro, non è implementato l'algoritmo Trustrank descritto da Beke, non significa che consideri sbagliato l'articolo stesso. Anzi, è tra gli articoli sul Trustrank meglio esposti.

    Ps: ma il mio post dov'è finito?... era OT anche quello?

    Cordialmente,
    Stuart


  • Community Manager

    @Stuart said:

    Ps: ma il mio post dov'è finito?... era OT anche quello?

    Azz, ho combinato un pasticcio, sorry Stuart.

    Stuart scriveva...

    @ArkaneFactors said:

    A me hanno insegnato che un articolo/paper serio deve sempre citare le proprie fonti.....

    Combating Web Spam with Trustrank
    Zoltan Gyongyi, Hector Garcia-Molina, Jan Pedersen

    http://www.vldb.org/conf/2004/RS15P3.PDF

    Cordialmente,
    Stuart


  • Super User

    Ciao Stuart 🙂

    @Stuart said:

    Il problema che ci si pone è se effettivamente l'algoritmo trustrank sia attualmente implementato come fattore di valutazione di un sito internet. A mio parere NO. E' plausibile pensare che quelli di Google stiano studiando un metodo alternativo al Pagerank (come tutti sappiamo non è impossibile farlo salire più o meno onestamente, o più o meno disonestamente), ma non credo che sarà il TR a sostituirlo definitivamente.Non fare l'errore di vedere il Trustrank come un sostituto del Pagerank, i due algoritmi hanno due scopi decisamente differenti, nella fattispecie il TrustRank serve ad assegnare ai documenti un punteggio di "fiducia" che insieme a tutti gli altri punteggi concorre all'ordinamento definitivo dei documenti.
    Il TrustRank nonostante tante bestialità che si sentono dire in giro (e basterebbe leggere il titolo dello studio originale per rendersene conto) non nasce per sostituire il PageRank, ma per combattere lo spam.

    @Stuart said:

    basta che UNO SOLO di questi siti giochi sporco, e l'intero database viene compromesso.per questo hanno messo in pratica un meccanismo di trust-attenuation, concetto che tu ben comprendi perchè scrivi:
    @Stuart said:
    man mano che ci si allontana dai siti buoni (che tramite i link donano valore trust massimo), il valore trust diminuisce e quindi diminuisce la possibilità che un sito sia considerato anch'esso buono.

    @Stuart said:

    ..Anzi, è tra gli articoli sul Trustrank meglio esposti.Ben gentile 🙂


  • Super User

    @beke said:

    Non fare l'errore di vedere il Trustrank come un sostituto del Pagerank..........Il TrustRank ........... non nasce per sostituire il PageRank, ma per combattere lo spam.
    Ammetto il mio daltonicismo culturale incapace di vedere i toni che stanno tra il bianco e il nero 🙂
    La domanda successiva sorge spontanea: a tuo parere il Trustrank così come è presentato nel documento originale (o con minime variazioni) è attualmente impiegato da Google o potrebbe esserlo in futuro?
    Anche se nel tuo articolo ho difficoltà a intuire se prendi una posizione precisa, sarei tentato dal pensare di , visto che nel menu a sinistra questa risorsa è inserita insieme a informazioni concrete quali Hilltop, Pagerank, Il Brevetto Information Retrieval Based on ecc ecc. -il quale, a distanza di un anno si sta rivelando molto meno fumo negli occhi di quanto sembrasse agli inizi...

    Cordialmente,
    Stuart


  • Super User

    Ammetto il mio daltonicismo culturale incapace di vedere i toni che stanno tra il bianco e il neroNon provarci nemmeno a fare l'ingenuo, ho letto molti tuoi post e mi sembra che tu abbia una visione delle cose (almeno in ambito SEO) assai precisa, altro che daltonico 🙂

    ...a tuo parere il Trustrank così come è presentato nel documento originale (o con minime variazioni) è attualmente impiegato da Google o potrebbe esserlo in futuro?Secondo me è implementato eccome!
    Lo suppongo perchè:

    1)A questo giro Google si è "accattato" un algoritmo "già pronto" ed in grado di produrre risultati tangibili. La qualità dei risultati è analizzata nell'ultima parte dello studio (che dovrebbe essere riassunta nel mio quarto articolo della serie, che dovrei scrivere, con il ritmo che tengo adesso, entro marzo 2015 :D). Anticipo per chi non volesse leggere lo studio che i risultati sono buoni, specialmente nella fascia di siti con PageRank alto, le serp create esclusivamente da Trustrank sono virtualmente esenti da spam. Ovviamente una serp gestita dal solo TrustRank "poterebbe" una quantità di siti che non effettuano spam e che però sono sganciati dal circuito "virtuoso". Usando invece il TR solo per correggere le serp facciamo rientrare un pò di spam dalla finestra dopo averlo cacciato dalla porta però otteniamo serp mediamente migliori (secondo me).

    2)A livello computazionale è un ottimo algoritmo che non richiede enormi risorse e produce risultati.

    Per la cronaca gli stessi autori l'anno successivo sono ripartiti dal punto in cui erano rimasti ed hanno messo a punto [url=http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=2005-33&format=pdf&compression=&name=2005-33.pdf]questo nuovo algoritmo che, invece di premiare le pagine buone identifica quelle cattive.

    ...Il Brevetto Information Retrieval Based on ecc ecc. -il quale, a distanza di un anno si sta rivelando molto meno fumo negli occhi di quanto sembrasse agli inizi...Nevvero? 😄
    Sono contento che tu stia cambiando idea su questo, per quanto sia difficile avere delle evidenze gli stessi esperimenti che fai sul traffico nell'altro thread mi sembravano attinenti a questa linea di pensiero.


  • Super User

    @beke said:

    A questo giro Google si è "accattato" un algoritmo "già pronto" ed in grado di produrre risultati tangibili. La qualità dei risultati è analizzata nell'ultima parte dello studio (che dovrebbe essere riassunta nel mio quarto articolo della serie, che dovrei scrivere, con il ritmo che tengo adesso, entro **marzo 2015 **) 😄
    Dai, sono ancora un ragazzino...ce la farò a leggerlo 😄

    @beke said:

    Ovviamente una serp gestita dal solo TrustRank "poterebbe" una quantità di siti che non effettuano spam e che però sono sganciati dal circuito "virtuoso"
    E' ciò appunto che temevo ipotizzando una sostituzione radicale del PR
    E infatti...
    @beke said:
    Usando invece il TR solo per correggere le serp .... otteniamo serp mediamente migliori (secondo me).
    A livello computazionale è un ottimo algoritmo che non richiede enormi risorse e produce risultati.
    Il che è plausibile (e ha il potere di convincermi al 90%).
    Rimanendo in tema di semplicità di implementazione di questo algoritmo, un modo ancora più semplice per produrre effetti equivalenti a quelli ottenibili con il Trustrank, non potrebbe essere stato un intervento diretto sulla formula del Pagerank, variando il damping factor a seconda che il sito sia trusted (cioè che fa parte del seed) o meno?

    @beke said:

    ...hanno messo a punto questo nuovo algoritmo...
    Il Link Spam Detection Based on Mass Estimation....ne conoscevo l'esistenza ma non ho mai trovato il tempo di leggerlo. Questa direi che è una buona occasione...meglio tardi che mai.

    @beke said:

    Sono contento che tu stia cambiando idea su questo, per quanto sia difficile avere delle evidenze
    E' uno dei tanti step-back che sto facendo in quest'ultimo anno, e che spero di riuscire a condividere presto...

    Cordialmente,
    Stuart


  • Super User

    Rimanendo in tema di semplicità di implementazione di questo algoritmo, un modo ancora più semplice per produrre effetti equivalenti a quelli ottenibili con il Trustrank, non potrebbe essere stato un intervento diretto sulla formula del Pagerank, variando il damping factor a seconda che il sito sia trusted (cioè che fa parte del seed) o meno?Il seed è formato da meno di duecento siti, un vettore così "sparso" applicato al damping factor non avrebbe senso, almeno amio modo di vedere.
    Invece un vettore ricavato dagli effettivi valore di TrustRank applicato al damping factor è uno dei tanti sistemi di implementazione che si possono ipotizzare e secondo me è pure probabile.

    L'utilizzo di damping factor non uniformi è un tipo di tecnica che negli anni ha portato allo sviluppo di algoritmi assolutamente interessanti, come per esempio il topic sensitive pagerank.


  • Super User

    Una nota veloce circa la possibile integrazione del TrustRank nel PageRank ipotizzata da Stuart: uno dei vantaggi del TR è che può sfruttare comodamente la stessa infrastruttura del PR ed in particolare il suo modello distributivo.

    Il fattore di decadimento del TR, a seconda dell'implementazione, può seguire un criterio diverso da quello del PR oppure lo stesso criterio. E' una scelta di implementazione.

    Quindi da un lato può esistere indubbiamente la volontà, da parte del motore di ricerca, di approfittare di un'infrastruttura già esistente e dall'altro bisogna trovare il modo di farlo in maniera coerente.

    Convengo con beke quando dice che non ha senso applicare il vettore dei seed mentre è estremamente plausibile che sia il vettore del TR ad essere applicato al modello di distribuzione del PR, agendo sul damping factor oppure (ottenendo indirettamente un risultato analogo) sul PR(Tn)/C(Tn).