Il PageRank di Google (no Page Rank) non è solo matematica

giorgiotave

Ed è quello che si dice da sempre

beke

@Everfluxx: Qua la mano socio

@Giorgio: Angelweb non sta dicendo proprio la stessa cosa, la sua tesi infatti è che l'importanza di un documento non dipenda solo dai link

...il PR non viene calcolato solo in conti numerici ma anche da altri fattori...
Ovviamente non ho nulla contro Angelweb ci mancherebbe eh ma è importante che le visioni e le opinioni si confrontino anche approfonditamente, è solo così che si impara qualcosa.
E ovviamente ci sta benissimo sia io ad imparare, ne sarei più che felice

giorgiotave

@beke said:

Ovviamente non ho nulla contro Angelweb ci mancherebbe eh ma è importante che le visioni e le opinioni si confrontino anche approfonditamente, è solo così che si impara qualcosa.
E ovviamente ci sta benissimo sia io ad imparare, ne sarei più che felice

O Yeah

Io penso che però Angelweb dica più o meno la stessa cosa.

Però aspettiamo lui per vedere se è vero quello che penso; io credo che quello che dice si concentri nell'affermazione di Google:

Tuttavia, non si limita a calcolare il numero di voti, o collegamenti, assegnati a una pagina. Oltre a effettuare questo calcolo, Google prende in esame la pagina che ha assegnato il voto.

Aspettiamo per discuterne

Secondo me, se si vuole uscire da una discussione potenzialmente sterile, bisogna innanzitutto accordarsi su ciò che s'intende per "PageRank".

Io e Beke per "PageRank" intendiamo quello che tutti (o quasi :D) intendono: un indice di importanza calcolato per mezzo dell'algoritmo ricorsivo contenuto nel paper originale "The Anatomy of..." che tutti (o quasi :D) ormai conoscono a menadito, rappresentato tramite l'amata/odiata barretta verde sulla Google Toolbar.

Angelweb invece, mi pare di capire [mi corregga pure se ho male interpretato], col termine "PageRank" intende, per estensione, l'importanza/rilevanza che gli algoritmi di ranking oggi implementati in Google assegnano a una data pagina in base alla query dell'utente.

Se la mia interpretazione del pensiero di Angelweb è corretta, allora si sfonda una porta aperta, perlomeno per quanto mi riguarda: sono infatti pienamente d'accordo sul fatto che il «PageRank» (fra virgolette) di una pagina non dipenda solo da quello dei suoi inbound link, ma anche da innumerevoli altri fattori tra cui, ad esempio, la rilevanza di quella pagina all'interno del topic di riferimento. Rilevanza che potrebbe essere calcolata --lo ripeto-- in maniera diversa per ciascuna query attraverso una versione "moddata" di PageRank: vedi il paper Topic-Sensitive PageRank, di cui cito l'abstract:

@Taher H. Haveliwala said:

In the original PageRank algorithm for improving the ranking of search-query results, a single PageRank vector is computed, using the link structure of the Web, to capture the relative "importance" of Web pages, independent of any particular search query. To yield more accurate search results, we propose computing a set of PageRank vectors, biased using a set of representative topics, to capture more accurately the notion of importance with respect to a particular topic. By using these (precomputed) biased PageRank vectors to generate query-specific importance scores for pages at query time, we show that we can generate more accurate rankings than with a single, generic PageRank vector. For ordinary keyword search queries, we compute the topic-sensitive PageRank scores for pages satisfying the query using the topic of the query keywords. For searches done in context (e.g., when the search query is performed by highlighting words in a Web page), we compute the topic-sensitive PageRank scores using the topic of the context in which the query appeared.
A voi la palla.

angelweb

Forse stiamo dicendo tutti la stessa cosa ma il problema è che non ci capiamo o io non mi spiego bene.

Ribadisco che il PR IMHO non è solo matematica ma viene calcolato da altri fattori e uno è quello dell'importanza di un documento in quanto relativo se possiede PR0 PR1 PR2 ecc.ecc.

Ci siamo fino a qui ??

per Giorgio: si dice che il PR è frutto di matematica cioè ricevendo tot di link si ottiene PR..
e questo non è vero assolutamente.
Questo è quello che credo.

Però da quello che ho capito e letto dagli altri ragazzi non mi sembra che siano proprio tutti daccordo con questa affermazione!!

@angelweb said:

Ribadisco che il PR IMHO non è solo matematica ma viene calcolato da altri fattori e uno è quello dell'importanza di un documento in quanto relativo se possiede PR0 PR1 PR2 ecc.ecc.

Ci siamo fino a qui ?? Ehm... no.

Forse non ti è molto chiaro il concetto di algoritmo ricorsivo... Quello che stai dicendo (se stai dicendo che il PR --o importanza-- di una pagina non dipende solo dal numero di back link ma anche, a sua volta, dal PR --o importanza-- delle pagine contenenti tali link) è infatti ricompreso nella formula (matematica) per il calcolo di PageRank contenuta nel paper di Brin e Page. Cito Beke:

@beke said:

Il fatto che i link non siano tutti uguali fa parte della formula e del concetto che sta alla base di pagerank.
Un documento importante ha un pagerank più alto e ne distribuisce di più ai documenti che linka.

Ma qual'è un documento importante?

Uno che a sua volta riceve link da documenti importanti.
E così via.

per Giorgio: si dice che il PR è frutto di matematica cioè ricevendo tot di link si ottiene PR..
e questo non è vero assolutamente.
Infatti. Ma questo non è nemmeno desumibile dalla formula di PageRank così come oggi la conosciamo: infatti, ai fini del calcolo di PR, non tutti i link hanno lo stesso peso (perché, ricorsivamente, non tutte le pagine hanno lo stesso PR). Perciò è perfino ovvio che uno stesso numero di link non porti necessariamente a un pari incremento di PR.

Scusami se mi ripeto: il PageRank di una pagina dipende esclusivamente da quello dei suoi back link.

angelweb

@Everfluxx said:

Scusami se mi ripeto: il PageRank di una pagina dipende esclusivamente da quello dei suoi back link.

Con questa affermazione vuoi dire in base al NUMERO o alla QUALITA' ??

@angelweb said:

Con questa affermazione vuoi dire in base al NUMERO o alla QUALITA' ??
In base a entrambi. E la "qualità" è definita, a sua volta, in termini di PageRank.

Questo è quel che si dice un algoritmo ricorsivo.

angelweb

@Everfluxx said:

Questo è quel che si dice un algoritmo ricorsivo.

ma mi vuoi intrippare il cervello a questa ora ??

@angelweb said:

ma mi vuoi intrippare il cervello a questa ora ??

Sorry...

must

assolutamente d'accordo con beke e everfluxx (nonostante abbia fatto studi umanistici).

@must said:

assolutamente d'accordo con beke e everfluxx (nonostante abbia fatto studi umanistici).
Se è per quello, anch'io ho fatto studi onanistici.

must

(siamo OT, basta)

beke

[LEFT]Io invece ho fatto l'ITI.
Gli studi onanistici li ho fatti a casa mia, in privato

Riprendo questa discussione per postare un paio di link a due documenti fondamentali, ancorchè vecchi, a cui ogni tanto, vale la pena di ridare una sbirciatina.

IMHO ovviamente.

Sto parlando di "The PageRank Citation Ranking: Bringing Order to the Web"
http://dbpubs.stanford.edu:8090/cgi-bin/makehtml.cgi?document=1999/66

e "The Anatomy of a Large-Scale Hypertextual Web Search Engine"
http://www.public.asu.edu/~ychen127/cse591f05/anatomy.pdf

Del secondo riporto, oltre alla formula del pageRank, una sua definizione sintetica ma efficace

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d
is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are
more details about d in the next section. Also C(A) is defined as the number of links going
out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Another intuitive justification is that a page can have a high PageRank if there are many pages that point
to it, or if there are some pages that point to it and have a high PageRank. Intuitively, pages that are well
cited from many places around the web are worth looking at. Also, pages that have perhaps only one
citation from something like the Yahoo! homepage are also generally worth looking at. If a page was not
high quality, or was a broken link, it is quite likely that Yahoo’s homepage would not link to it.
PageRank handles both these cases and everything in between by recursively propagating weights
through the link structure of the web.
Dallo stesso documento estraggo alcuni altri passi che non c'entrano molto con il thread ma che secondo me sono comunque tuttora interessanti da notare, soprattutto visto l'anno di pubblicazione del documento (1998).

Most search engines associate the text of a link with the page that the link is on. In addition, we associate it with the page the link points to.
Google maintains much more information about web documents than typical search engines. Every hitlist
includes position, font, and capitalization information.
Additionally, we factor in hits from anchor text and the PageRank of the document. Combining all of this information into a rank is difficult. We designed our ranking function so that no particular factor can have too much influence. First, consider the simplest case -- a single word query. In order to rank a document with a single word query, Google looks at that document’s hit list for that word.
Google considers each hit to be one of several different types (title, anchor, URL, plain text large font, plain text small font, ...), each of which has its own type-weight. The type-weights make up a vector indexed by type. Google counts the number of hits of each type in the hit list. Then every count is converted into a count-weight. Count-weights increase linearly with counts at first but quickly taper off so that more than a certain count will not help. We take the dot product of the vector of count-weights with the vector of type-weights to compute an IR score for the document. Finally, the IR score is combined with PageRank to give a final rank to the document.
For a multi-word search, the situation is more complicated....
For every matched set of hits, a proximity is computed. The proximity is based on how far apart the hits are in the document (or anchor) but is classified into 10 different value "bins" ranging from a phrase match to "not even close". Counts are computed not only for every type of hit but for every type and proximity. Every type and proximity pair has a type-prox-weight. The counts are converted into count-weights and we take the dot product of the count-weights and the type-prox-weights to compute an IR score.
We are also working to extend the use of link structure and link text. Simple experiments indicate PageRank
can be personalized by increasing the weight of a user’s home page or bookmarks. As for link text, we
are experimenting with using text surrounding links in addition to the link text itself.
Spero di non avervi annoiato troppo

[/LEFT]

franseo

Credo che stiate dicendo un po' tutti la stessa cosa.....

Un idea "nuova" potrebbe essere questa:

Il PR non è definito solo dal numero dei BL o dalla qualità di questi, ma anche dalla relatività dell' argomento. Se il mio sito parla di PEPERONI e ho anche solo 8 BL ma da siti come : PEPERONI VERDI, PEPERONI ROSSI, PEPERONATA.....

Ok, avrò solo 8 BL ma nel mio settore sono un autorità, insomma essere leader di una nicchia può incidere ??? Il PR può essere relativo ai settori del web (in un settore come "voli low cost" sarà più difficile ottenere PR alto) ?????

Che ne dite ?????

@franseo said:

Il PR può essere relativo ai settori del web (in un settore come "voli low cost" sarà più difficile ottenere PR alto) ?????

Che ne dite ?????
Dico che bisogna vedere che cosa intendi per "PageRank" (vedi risposta ad Angelweb sopra).

marcuzzer

ciao a tutti,
mi sembra che di cose se ne stiano dicendo diverse, alcune corrette altre no, solo per questione di proprieta' di linguaggio - quello matematico.

il pagerank e' un numero reale. viene calcolato con un algoritmo che simula la naviagazione casuale su un grafo detto Web ed attribuisce ad ogni nodo del grafo un valore, appunto il pagerank. l'algoritmo e' noto dal 1998. non ha molti misteri.

il mistero,la ricetta segreta della coca cola, e' come e quanto questo numero concorra, insieme ad altri fattori, a determinare l'ordinamento dei nodi, e di conseguenza il posizionamento di un nodo all'interno dei risultati.

Per non flippare il cervello a nessuno pensa al pagerank come un sistema di votazione, e prova a limitarlo agli utenti del forum.
Supponiamo che il primo giorno, quello di apertura del forum, tutti gli utenti siano uguali, ossia tutti equivalentemente "competenti in materia di motori di ricerca". A un certo punto, in base a quanto ognuno di noi ha scritto, chiediamo a tutti gli utenti di esprimere un solo voto (per semplificare la questione) verso altri utenti del forum.
Con molta probabilita' Giorgio e Stuart riceverebbero una valanga di voti, supponiamo 1000 ognuno. Questo darebbe a loro uno status di "persone molto compententi".

Ma abbiamo detto l'algoritmo e' ricorsivo o se preferisci si conclude in piu' iterazioni (passaggi) sul grafo. Bada bene, questa ricursione fa parte della definizione stessa del pagerank. Dobbiamo quindi quantomeno procedere a una seconda votazione... questo vuol dire che una volta determinati tutti i voti, andremo a pesare i voti in base alla "competenza" dei votanti.

Se per esempio Anna ha ricevuto 17 voti da utenti che non sono stati votati da nessuno, mentre Bruno ha ricevuto solo 2 voti, ma da Giorgio e Stuart, allora Bruno ha una "competenza" molto maggiore di Anna. Il pagerank non indica il numero di voti ricevuti, ma il numero di voti pesati ricevuti.

ciao,
*M

Ottimo post, marcuzzer: sei riuscito a spiegare in maniera accessibile un concetto (quello di ricorsione) potenzialmente ostico per chi non mastica d'informatica. Bravo.

Aggiungo solo, a mo' d'integrazione, che PageRank è calcolato proprio per mezzo di iterazioni (le "votazioni successive" nell'esempio di marcuzzer).

fradefra

@Everfluxx said:

Ottimo post, marcuzzer: sei riuscito a spiegare in maniera accessibile un concetto (quello di ricorsione) potenzialmente ostico per chi non mastica d'informatica. Bravo.
....

Veramente la ricorsione è un concetto matematico, non informatico. La ricorsione esiste ben da prima che s'inventasse il primo computer (Es: le curve matematiche chiamate frattali).

@fradefra said:

Veramente la ricorsione è un concetto matematico, non informatico. La ricorsione esiste ben da prima che s'inventasse il primo computer (Es: le curve matematiche chiamate frattali).
Che dire? Hai perfettamente ragione.