- Home
- Categorie
- La Community Connect.gt
- News Ufficiali da Connect.gt
- Il PageRank di Google (no Page Rank) non è solo matematica
-
@Everfluxx said:
Questo è quel che si dice un algoritmo ricorsivo.
ma mi vuoi intrippare il cervello a questa ora ??
-
-
assolutamente d'accordo con beke e everfluxx (nonostante abbia fatto studi umanistici).
-
@must said:
assolutamente d'accordo con beke e everfluxx (nonostante abbia fatto studi umanistici).
Se è per quello, anch'io ho fatto studi onanistici.
-
(siamo OT, basta)
-
[LEFT]Io invece ho fatto l'ITI.
Gli studi onanistici li ho fatti a casa mia, in privatoRiprendo questa discussione per postare un paio di link a due documenti fondamentali, ancorchè vecchi, a cui ogni tanto, vale la pena di ridare una sbirciatina.
IMHO ovviamente.
Sto parlando di "The PageRank Citation Ranking: Bringing Order to the Web"
http://dbpubs.stanford.edu:8090/cgi-bin/makehtml.cgi?document=1999/66e "The Anatomy of a Large-Scale Hypertextual Web Search Engine"
http://www.public.asu.edu/~ychen127/cse591f05/anatomy.pdfDel secondo riporto, oltre alla formula del pageRank, una sua definizione sintetica ma efficace
We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d
is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are
more details about d in the next section. Also C(A) is defined as the number of links going
out of page A. The PageRank of a page A is given as follows:PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Another intuitive justification is that a page can have a high PageRank if there are many pages that point
to it, or if there are some pages that point to it and have a high PageRank. Intuitively, pages that are well
cited from many places around the web are worth looking at. Also, pages that have perhaps only one
citation from something like the Yahoo! homepage are also generally worth looking at. If a page was not
high quality, or was a broken link, it is quite likely that Yahoo’s homepage would not link to it.
PageRank handles both these cases and everything in between by recursively propagating weights
through the link structure of the web.
Dallo stesso documento estraggo alcuni altri passi che non c'entrano molto con il thread ma che secondo me sono comunque tuttora interessanti da notare, soprattutto visto l'anno di pubblicazione del documento (1998).Most search engines associate the text of a link with the page that the link is on. In addition, we associate it with the page the link points to.
Google maintains much more information about web documents than typical search engines. Every hitlist
includes position, font, and capitalization information.
Additionally, we factor in hits from anchor text and the PageRank of the document. Combining all of this information into a rank is difficult. We designed our ranking function so that no particular factor can have too much influence. First, consider the simplest case -- a single word query. In order to rank a document with a single word query, Google looks at that document’s hit list for that word.
Google considers each hit to be one of several different types (title, anchor, URL, plain text large font, plain text small font, ...), each of which has its own type-weight. The type-weights make up a vector indexed by type. Google counts the number of hits of each type in the hit list. Then every count is converted into a count-weight. Count-weights increase linearly with counts at first but quickly taper off so that more than a certain count will not help. We take the dot product of the vector of count-weights with the vector of type-weights to compute an IR score for the document. Finally, the IR score is combined with PageRank to give a final rank to the document.
For a multi-word search, the situation is more complicated....
For every matched set of hits, a proximity is computed. The proximity is based on how far apart the hits are in the document (or anchor) but is classified into 10 different value "bins" ranging from a phrase match to "not even close". Counts are computed not only for every type of hit but for every type and proximity. Every type and proximity pair has a type-prox-weight. The counts are converted into count-weights and we take the dot product of the count-weights and the type-prox-weights to compute an IR score.
We are also working to extend the use of link structure and link text. Simple experiments indicate PageRank
can be personalized by increasing the weight of a user’s home page or bookmarks. As for link text, we
are experimenting with using text surrounding links in addition to the link text itself.
Spero di non avervi annoiato troppo[/LEFT]
-
Credo che stiate dicendo un po' tutti la stessa cosa.....
Un idea "nuova" potrebbe essere questa:
Il PR non è definito solo dal numero dei BL o dalla qualità di questi, ma anche dalla relatività dell' argomento. Se il mio sito parla di PEPERONI e ho anche solo 8 BL ma da siti come : PEPERONI VERDI, PEPERONI ROSSI, PEPERONATA.....
Ok, avrò solo 8 BL ma nel mio settore sono un autorità, insomma essere leader di una nicchia può incidere ??? Il PR può essere relativo ai settori del web (in un settore come "voli low cost" sarà più difficile ottenere PR alto) ?????
Che ne dite ?????
-
@franseo said:
Il PR può essere relativo ai settori del web (in un settore come "voli low cost" sarà più difficile ottenere PR alto) ?????
Che ne dite ?????
Dico che bisogna vedere che cosa intendi per "PageRank" (vedi risposta ad Angelweb sopra).
-
ciao a tutti,
mi sembra che di cose se ne stiano dicendo diverse, alcune corrette altre no, solo per questione di proprieta' di linguaggio - quello matematico.il pagerank e' un numero reale. viene calcolato con un algoritmo che simula la naviagazione casuale su un grafo detto Web ed attribuisce ad ogni nodo del grafo un valore, appunto il pagerank. l'algoritmo e' noto dal 1998. non ha molti misteri.
il mistero,la ricetta segreta della coca cola, e' come e quanto questo numero concorra, insieme ad altri fattori, a determinare l'ordinamento dei nodi, e di conseguenza il posizionamento di un nodo all'interno dei risultati.
Per non flippare il cervello a nessuno pensa al pagerank come un sistema di votazione, e prova a limitarlo agli utenti del forum.
Supponiamo che il primo giorno, quello di apertura del forum, tutti gli utenti siano uguali, ossia tutti equivalentemente "competenti in materia di motori di ricerca". A un certo punto, in base a quanto ognuno di noi ha scritto, chiediamo a tutti gli utenti di esprimere un solo voto (per semplificare la questione) verso altri utenti del forum.
Con molta probabilita' Giorgio e Stuart riceverebbero una valanga di voti, supponiamo 1000 ognuno. Questo darebbe a loro uno status di "persone molto compententi".Ma abbiamo detto l'algoritmo e' ricorsivo o se preferisci si conclude in piu' iterazioni (passaggi) sul grafo. Bada bene, questa ricursione fa parte della definizione stessa del pagerank. Dobbiamo quindi quantomeno procedere a una seconda votazione... questo vuol dire che una volta determinati tutti i voti, andremo a pesare i voti in base alla "competenza" dei votanti.
Se per esempio Anna ha ricevuto 17 voti da utenti che non sono stati votati da nessuno, mentre Bruno ha ricevuto solo 2 voti, ma da Giorgio e Stuart, allora Bruno ha una "competenza" molto maggiore di Anna. Il pagerank non indica il numero di voti ricevuti, ma il numero di voti pesati ricevuti.
ciao,
*M
-
Ottimo post, marcuzzer: sei riuscito a spiegare in maniera accessibile un concetto (quello di ricorsione) potenzialmente ostico per chi non mastica d'informatica. Bravo.
Aggiungo solo, a mo' d'integrazione, che PageRank è calcolato proprio per mezzo di iterazioni (le "votazioni successive" nell'esempio di marcuzzer).
-
@Everfluxx said:
Ottimo post, marcuzzer: sei riuscito a spiegare in maniera accessibile un concetto (quello di ricorsione) potenzialmente ostico per chi non mastica d'informatica. Bravo.
....Veramente la ricorsione è un concetto matematico, non informatico. La ricorsione esiste ben da prima che s'inventasse il primo computer (Es: le curve matematiche chiamate frattali).
-
@fradefra said:
Veramente la ricorsione è un concetto matematico, non informatico. La ricorsione esiste ben da prima che s'inventasse il primo computer (Es: le curve matematiche chiamate frattali).
Che dire? Hai perfettamente ragione.
-
@Everfluxx said:
Che dire? Hai perfettamente ragione.
Mi ricordo che molti anni fa spiegavo la ricorsione ad un gruppo di persone.
"... la ricorsione è un tipo di algoritmo con una funzione che nel suo calcolo interno usa se stessa..."
Tutti in crisi (programmatori junior) salvo uno... che aveva veramente capito tutto e bene. Roberto, si chiamava. Mi ricordo che un anno dopo lasciò l'informatica per fare l'operaio del gas a Milano.
Ridete, ridete, ma vi giuro che è vero.
-
Sono un grande fan della ricorsione.
Per l'esame di maturità scrissi un programmino in Turbo Pascal che generava insiemi di Mandelbrot. Faceva parte di una tesina sperimentale sul Caos, che partiva dal rapporto tra i filosofi presocratici e Nietzsche per arrivare ai frattali. Questo nell'ahimè remoto 1991.Siamo terribilmente OT.
-
@beke said:
Il fatto che i link non siano tutti uguali fa parte della formula e del concetto che sta alla base di pagerank.
Un documento importante ha un pagerank più alto e ne distribuisce di più ai documenti che linka.Ma qual'è un documento importante?
Uno che a sua volta riceve link da documenti importanti.
E così via.E' un algoritmo ricorsivo.
la matematica c'è eccome.. gli spider di google non sono delle intelligenze artificiali che capiscono ed assegnano ad ognuno il pagerank che si merita. come dice beke è un algoritmo ricorsivo. Che poi dalla formula originale si siano introdotte variabili che rendono il pagerank particolare e tutte le balle che volete.. va bene... ma l'informatica si basa su formule non su esperienze empiriche...
-
La matematica cè come dicono in molti nella formula del Pagerank, cosa che non mi trova in accordo o quantomeno in minimissima parte (forse all'inizio dell'avventura creata da Brin e Page, ma poi totalmente esclusa IMHO).
Allora posto una domanda a tutti quelli che credono che il PR è basato su fattori matematici:
(Lasciamo perdere le implementazioni che ha avuto nel corso del tempo questo fenomeno);la domanda è: come viene assegnato il PR ad un sito web ??
Quanti BL deve ricevere un documento per essergli attribuito PR1 PR2 PR3 e via dicendo ??Voglio conti matematici e non ALTRO (gentilmente con esempi pratici)!!
Cerchiamo di non ampliare il discorso, che il post era nato in base ad una concreta realtà, quale il non fattore matematico dell'algoritmo del PR.
Grazie
-
ekko la risposta a tutte le tue domande
http://meyer.math.ncsu.edu/Meyer/PS_Files/DeeperInsidePR.pdf
-
sinceramente ne avrei fatto a meno di tutta questa matematica,
devo ancora finire di sostenere l'esame di Algoritmi in c, quindi non immagini quanto odi questa materia, ma è stato il mio prof a farci una lezione intera sul pagerank
-
@domenico.biancardi said:
sinceramente ne avrei fatto a meno di tutta questa matematicaDaccordissimo.
Veramente troppa, sia per i miei gusti, sia per le mie capacità@angelweb said:
la domanda è: come viene assegnato il PR ad un sito web ??
Quanti BL deve ricevere un documento per essergli attribuito PR1 PR2 PR3 e via dicendo ??
Voglio conti matematici e non ALTRO (gentilmente con esempi pratici)!!Non è possibile (imho) fare i conti che dici tu senza avere il grafo del web di Google, è solo possibile speculare sul tipo di ripartizione del PR fra i vari documenti.Il PR di un documento dipendo non solo dal numero dei link che riceve (altrimenti sarebbe mera link-popularity) ma anche, direttamente e come chiaramente specificato nella formula, dal PR dei documenti che lo linkano e dal numero dei link uscenti che questi ospitano.
Inoltre, a causa della crescita continua del web e quindi del numero di link in esso contenuti, anche un documento che continua a ricevere gli stessi tenderà a perdere PR ad ogni nuovo export a causa della normalizzazione del valore complessivo del PR.
[AGGIUNTO]E' questo valore complessivo del PR normalizzato alla fine ad un valore di fondo scala fisso (es. 10 per la toolbar) che decide quale PR avrà il documento, il cui valore calcolato, ma non normalizzato non ti direbbe niente.[/AGGIUNTO]
Se poi ho detto qualche strafalcione, qualcuno più "matematico" di me mi corregga....
-
@beke said:
Inoltre, a causa della crescita continua del web e quindi del numero di link in esso contenuti, anche un documento che continua a ricevere gli stessi tenderà a perdere PR ad ogni nuovo export a causa della normalizzazione del valore complessivo del PR.
vero. sempre che tu ti riferisca al PR portato sulla scala 0-10