Il PageRank di Google (no Page Rank) non è solo matematica

Ribadisco che il PR IMHO non è solo matematica ma viene calcolato da altri fattori e uno è quello dell'importanza di un documento in quanto relativo se possiede PR0 PR1 PR2 ecc.ecc.

Ci siamo fino a qui ?? Ehm... no.

Forse non ti è molto chiaro il concetto di algoritmo ricorsivo... Quello che stai dicendo (se stai dicendo che il PR --o importanza-- di una pagina non dipende solo dal numero di back link ma anche, a sua volta, dal PR --o importanza-- delle pagine contenenti tali link) è infatti ricompreso nella formula (matematica) per il calcolo di PageRank contenuta nel paper di Brin e Page. Cito Beke:

@beke said:

Il fatto che i link non siano tutti uguali fa parte della formula e del concetto che sta alla base di pagerank.
Un documento importante ha un pagerank più alto e ne distribuisce di più ai documenti che linka.

Ma qual'è un documento importante?

Uno che a sua volta riceve link da documenti importanti.
E così via.

per Giorgio: si dice che il PR è frutto di matematica cioè ricevendo tot di link si ottiene PR..
e questo non è vero assolutamente.
Infatti. Ma questo non è nemmeno desumibile dalla formula di PageRank così come oggi la conosciamo: infatti, ai fini del calcolo di PR, non tutti i link hanno lo stesso peso (perché, ricorsivamente, non tutte le pagine hanno lo stesso PR). Perciò è perfino ovvio che uno stesso numero di link non porti necessariamente a un pari incremento di PR.

Scusami se mi ripeto: il PageRank di una pagina dipende esclusivamente da quello dei suoi back link.

angelweb

@Everfluxx said:

Scusami se mi ripeto: il PageRank di una pagina dipende esclusivamente da quello dei suoi back link.

Con questa affermazione vuoi dire in base al NUMERO o alla QUALITA' ??

@angelweb said:

Con questa affermazione vuoi dire in base al NUMERO o alla QUALITA' ??
In base a entrambi. E la "qualità" è definita, a sua volta, in termini di PageRank.

Questo è quel che si dice un algoritmo ricorsivo.

angelweb

@Everfluxx said:

Questo è quel che si dice un algoritmo ricorsivo.

ma mi vuoi intrippare il cervello a questa ora ??

@angelweb said:

ma mi vuoi intrippare il cervello a questa ora ??

Sorry...

must

assolutamente d'accordo con beke e everfluxx (nonostante abbia fatto studi umanistici).

@must said:

assolutamente d'accordo con beke e everfluxx (nonostante abbia fatto studi umanistici).
Se è per quello, anch'io ho fatto studi onanistici.

must

(siamo OT, basta)

beke

[LEFT]Io invece ho fatto l'ITI.
Gli studi onanistici li ho fatti a casa mia, in privato

Riprendo questa discussione per postare un paio di link a due documenti fondamentali, ancorchè vecchi, a cui ogni tanto, vale la pena di ridare una sbirciatina.

IMHO ovviamente.

Sto parlando di "The PageRank Citation Ranking: Bringing Order to the Web"
http://dbpubs.stanford.edu:8090/cgi-bin/makehtml.cgi?document=1999/66

e "The Anatomy of a Large-Scale Hypertextual Web Search Engine"
http://www.public.asu.edu/~ychen127/cse591f05/anatomy.pdf

Del secondo riporto, oltre alla formula del pageRank, una sua definizione sintetica ma efficace

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d
is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are
more details about d in the next section. Also C(A) is defined as the number of links going
out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Another intuitive justification is that a page can have a high PageRank if there are many pages that point
to it, or if there are some pages that point to it and have a high PageRank. Intuitively, pages that are well
cited from many places around the web are worth looking at. Also, pages that have perhaps only one
citation from something like the Yahoo! homepage are also generally worth looking at. If a page was not
high quality, or was a broken link, it is quite likely that Yahoo’s homepage would not link to it.
PageRank handles both these cases and everything in between by recursively propagating weights
through the link structure of the web.
Dallo stesso documento estraggo alcuni altri passi che non c'entrano molto con il thread ma che secondo me sono comunque tuttora interessanti da notare, soprattutto visto l'anno di pubblicazione del documento (1998).

Most search engines associate the text of a link with the page that the link is on. In addition, we associate it with the page the link points to.
Google maintains much more information about web documents than typical search engines. Every hitlist
includes position, font, and capitalization information.
Additionally, we factor in hits from anchor text and the PageRank of the document. Combining all of this information into a rank is difficult. We designed our ranking function so that no particular factor can have too much influence. First, consider the simplest case -- a single word query. In order to rank a document with a single word query, Google looks at that document’s hit list for that word.
Google considers each hit to be one of several different types (title, anchor, URL, plain text large font, plain text small font, ...), each of which has its own type-weight. The type-weights make up a vector indexed by type. Google counts the number of hits of each type in the hit list. Then every count is converted into a count-weight. Count-weights increase linearly with counts at first but quickly taper off so that more than a certain count will not help. We take the dot product of the vector of count-weights with the vector of type-weights to compute an IR score for the document. Finally, the IR score is combined with PageRank to give a final rank to the document.
For a multi-word search, the situation is more complicated....
For every matched set of hits, a proximity is computed. The proximity is based on how far apart the hits are in the document (or anchor) but is classified into 10 different value "bins" ranging from a phrase match to "not even close". Counts are computed not only for every type of hit but for every type and proximity. Every type and proximity pair has a type-prox-weight. The counts are converted into count-weights and we take the dot product of the count-weights and the type-prox-weights to compute an IR score.
We are also working to extend the use of link structure and link text. Simple experiments indicate PageRank
can be personalized by increasing the weight of a user’s home page or bookmarks. As for link text, we
are experimenting with using text surrounding links in addition to the link text itself.
Spero di non avervi annoiato troppo

[/LEFT]

franseo

Credo che stiate dicendo un po' tutti la stessa cosa.....

Un idea "nuova" potrebbe essere questa:

Il PR non è definito solo dal numero dei BL o dalla qualità di questi, ma anche dalla relatività dell' argomento. Se il mio sito parla di PEPERONI e ho anche solo 8 BL ma da siti come : PEPERONI VERDI, PEPERONI ROSSI, PEPERONATA.....

Ok, avrò solo 8 BL ma nel mio settore sono un autorità, insomma essere leader di una nicchia può incidere ??? Il PR può essere relativo ai settori del web (in un settore come "voli low cost" sarà più difficile ottenere PR alto) ?????

Che ne dite ?????

@franseo said:

Il PR può essere relativo ai settori del web (in un settore come "voli low cost" sarà più difficile ottenere PR alto) ?????

Che ne dite ?????
Dico che bisogna vedere che cosa intendi per "PageRank" (vedi risposta ad Angelweb sopra).

marcuzzer

ciao a tutti,
mi sembra che di cose se ne stiano dicendo diverse, alcune corrette altre no, solo per questione di proprieta' di linguaggio - quello matematico.

il pagerank e' un numero reale. viene calcolato con un algoritmo che simula la naviagazione casuale su un grafo detto Web ed attribuisce ad ogni nodo del grafo un valore, appunto il pagerank. l'algoritmo e' noto dal 1998. non ha molti misteri.

il mistero,la ricetta segreta della coca cola, e' come e quanto questo numero concorra, insieme ad altri fattori, a determinare l'ordinamento dei nodi, e di conseguenza il posizionamento di un nodo all'interno dei risultati.

Per non flippare il cervello a nessuno pensa al pagerank come un sistema di votazione, e prova a limitarlo agli utenti del forum.
Supponiamo che il primo giorno, quello di apertura del forum, tutti gli utenti siano uguali, ossia tutti equivalentemente "competenti in materia di motori di ricerca". A un certo punto, in base a quanto ognuno di noi ha scritto, chiediamo a tutti gli utenti di esprimere un solo voto (per semplificare la questione) verso altri utenti del forum.
Con molta probabilita' Giorgio e Stuart riceverebbero una valanga di voti, supponiamo 1000 ognuno. Questo darebbe a loro uno status di "persone molto compententi".

Ma abbiamo detto l'algoritmo e' ricorsivo o se preferisci si conclude in piu' iterazioni (passaggi) sul grafo. Bada bene, questa ricursione fa parte della definizione stessa del pagerank. Dobbiamo quindi quantomeno procedere a una seconda votazione... questo vuol dire che una volta determinati tutti i voti, andremo a pesare i voti in base alla "competenza" dei votanti.

Se per esempio Anna ha ricevuto 17 voti da utenti che non sono stati votati da nessuno, mentre Bruno ha ricevuto solo 2 voti, ma da Giorgio e Stuart, allora Bruno ha una "competenza" molto maggiore di Anna. Il pagerank non indica il numero di voti ricevuti, ma il numero di voti pesati ricevuti.

ciao,
*M

Ottimo post, marcuzzer: sei riuscito a spiegare in maniera accessibile un concetto (quello di ricorsione) potenzialmente ostico per chi non mastica d'informatica. Bravo.

Aggiungo solo, a mo' d'integrazione, che PageRank è calcolato proprio per mezzo di iterazioni (le "votazioni successive" nell'esempio di marcuzzer).

fradefra

@Everfluxx said:

Ottimo post, marcuzzer: sei riuscito a spiegare in maniera accessibile un concetto (quello di ricorsione) potenzialmente ostico per chi non mastica d'informatica. Bravo.
....

Veramente la ricorsione è un concetto matematico, non informatico. La ricorsione esiste ben da prima che s'inventasse il primo computer (Es: le curve matematiche chiamate frattali).

@fradefra said:

Veramente la ricorsione è un concetto matematico, non informatico. La ricorsione esiste ben da prima che s'inventasse il primo computer (Es: le curve matematiche chiamate frattali).
Che dire? Hai perfettamente ragione.

fradefra

@Everfluxx said:

Che dire? Hai perfettamente ragione.

Mi ricordo che molti anni fa spiegavo la ricorsione ad un gruppo di persone.

"... la ricorsione è un tipo di algoritmo con una funzione che nel suo calcolo interno usa se stessa..."

Tutti in crisi (programmatori junior) salvo uno... che aveva veramente capito tutto e bene. Roberto, si chiamava. Mi ricordo che un anno dopo lasciò l'informatica per fare l'operaio del gas a Milano.

Ridete, ridete, ma vi giuro che è vero.

Sono un grande fan della ricorsione.
Per l'esame di maturità scrissi un programmino in Turbo Pascal che generava insiemi di Mandelbrot. Faceva parte di una tesina sperimentale sul Caos, che partiva dal rapporto tra i filosofi presocratici e Nietzsche per arrivare ai frattali. Questo nell'ahimè remoto 1991.

Siamo terribilmente OT.

domenico.biancardi

@beke said:

Il fatto che i link non siano tutti uguali fa parte della formula e del concetto che sta alla base di pagerank.
Un documento importante ha un pagerank più alto e ne distribuisce di più ai documenti che linka.

Ma qual'è un documento importante?

Uno che a sua volta riceve link da documenti importanti.
E così via.

E' un algoritmo ricorsivo.

la matematica c'è eccome.. gli spider di google non sono delle intelligenze artificiali che capiscono ed assegnano ad ognuno il pagerank che si merita. come dice beke è un algoritmo ricorsivo. Che poi dalla formula originale si siano introdotte variabili che rendono il pagerank particolare e tutte le balle che volete.. va bene... ma l'informatica si basa su formule non su esperienze empiriche...

angelweb

La matematica cè come dicono in molti nella formula del Pagerank, cosa che non mi trova in accordo o quantomeno in minimissima parte (forse all'inizio dell'avventura creata da Brin e Page, ma poi totalmente esclusa IMHO).

Allora posto una domanda a tutti quelli che credono che il PR è basato su fattori matematici:
(Lasciamo perdere le implementazioni che ha avuto nel corso del tempo questo fenomeno);

la domanda è: come viene assegnato il PR ad un sito web ??
Quanti BL deve ricevere un documento per essergli attribuito PR1 PR2 PR3 e via dicendo ??

Voglio conti matematici e non ALTRO (gentilmente con esempi pratici)!!

Cerchiamo di non ampliare il discorso, che il post era nato in base ad una concreta realtà, quale il non fattore matematico dell'algoritmo del PR.

Grazie

domenico.biancardi

ekko la risposta a tutte le tue domande

http://meyer.math.ncsu.edu/Meyer/PS_Files/DeeperInsidePR.pdf