• Community Manager

    Il PageRank di Google ha aggregato tutti gli altri algoritmi?

    Sono arrivato alla conclusione che Google ha aggregato tutti gli algoritmi più importanti sui link in un unico algoritmo: il PageRank.

    Per cercare di spiegarmi, ho bisogno di parlarvi del TrustRank di Google.

    Ho un buco di memoria. Non credo di aver mai parlato qui del "TrustRank" di Google.

    Ne ho parlato anni fa al Search Marketing Connect e nei vari Corsi SEO, ma non credo qui.

    Storia

    Molti anni fa abbiamo aperto un grande dibattito sul TrustRank e creato una raccolta di materiale.

    Poi @lowlevel (Enrico Altavilla) ci ammonì dicendo che era un brevetto di Yahoo!. Nella conversazione con Enrico sono intervenuto scrivendo

    Quando passa "LowLevel" lo senti 😄

    Uno degli inventori del Brevetto è Zoltán Gyöngyi che così si descrive:

    I graduated with a Ph.D. from the Computer Science Department in the fall of 2007. As a student, I was a member of the Stanford Infolab and worked with Professor Hector Garcia-Molina on improving web search, with a focus on web spam (search engine spam) detection. Currently, I am a research scientist at Google.

    Sono convinto che il concetto generale del Trustrank e dei suoi tanti derivati siano stati applicati e modificati a Google.

    Qualche anno dopo durante un Search Marketing Connect mi rivolsi direttamente a Enrico mostrando un brevetto di Google che era praticamente uguale a quello del TrustRank di Yahoo!

    No, non è una rivincita. Primo perché è solo un brevetto, quindi rimane che Enrico ancora oggi potrebbe avere ragione, secondo perché con Enrico non abbiamo un approccio LA DISCUSSIONE È UNA GUERRA, infatti ho usato il termine Conversazione.

    Il Qualcosa Rank

    Il brevetto che ho segnalato si chiama Producing a ranking for pages using distances in a web-link graph scritto da Hajaj Nissan. Di Google ovvio.

    Dice

    The system then assigns lengths to the links based on properties of the links and properties of the pages attached to the links. The system next computes shortest distances from the set of seed pages to each page in the set of pages based on the lengths of the links between the pages. Next, the system determines a ranking score for each page in the set of pages based on the computed shortest distances. The system then produces a ranking for the set of pages based on the ranking scores for the set of pages.

    One possible variation of PageRank that would reduce the effect of these techniques is to select a few "trusted" pages (also referred to as the seed pages) and discovers other pages which are likely to be good by following the links from the trusted pages.

    Other References (sono CHIARI)

    Prima

    Gyongyi et al., "Combating Web Spam with TrustRank," Proceedings of the 30th VLDB Conference, Toronto, Canada, 2004. cited by examiner .

    Seconda

    Gyongyi et al., "Combating Web Spam with TrustRank," Proceedings of the 30th VLDB Conference, 2004. cited by examiner .

    Terza

    Candan et al., Using Random Walks for Mining Web Document Associations, PAKDD 2000, LNAI 1805, pp. 294-305, 2000. cited by examiner .

    Quarta

    Wu et al., Topical TrustRank: Using Topicality to Combat Web Spam, WWW 2006, May 23-26, Edinburgh, Scotland, pp. 63-732. cited by examiner .

    Ci sono molte altre citazioni, ma la direzione è chiara. L'uso del TrustRank del nostro caro Zoltán Gyöngyi

    E Quindi?

    Sono arrivato alla conclusione che Google ha aggregato gli algoritmi sotto un unico algoritmo: il PageRank.

    Nelle linee guida di Google si fa riferimento, spesso, solo al PageRank.
    È come se Google quando parla di qualcosa di relativo agli algoritmi sui link, cita solo quello.

    Direte voi che è per semplificare. Eppure cita altri brevetti fra le linee, per chi riesce a riconoscerli (e magari è un mio bias)

    Vediamo un esempio.

    Qui in Inglese USA si nota

    We look for sites that many users seem to value for similar queries. For example, if other prominent websites link to the page (what is known as PageRank), that has proven to be a good sign that the information is well trusted.

    A questo punto, visto che nella frase vedo sia il TrustRank (trusted) che il Topical Trustrank (prominent websites), vuoi vedere che questa ipotesi evolutiva del PageRank è vera?

    Cioè una delle ipotesi delle evoluzioni del PageRank è l'integrazione del TrustRank e del Topical Trustrank.

    Vuoi vedere che la direzione che ha preso anni fa è di aggregare tutto sotto il PageRank?

    Che ne dite?


  • Contributor

    Mi sembrano delle ottime osservazioni!

    A quanto hai detto andrebbero aggiunte delle considerazioni anche sul Reasonable Surfer Model applicato al calcolo del Pagerank (son da mobile e non riesco a linkare, ma Slawski lo ha coperto un po' di volte, anche di recente se non erro).

    Alla fine io credo che il Pagerank rimanga sempre, solo di volta in volta "corretto" e modificato da questo o quell'altro algoritmo che ne corregga il peso secondo logiche di pertinenza o di limitazioni dello spam.