[IR] Google ha molti algoritmi, giusto?

nbriani

dove sbaglio?

Secondo me nella semplificazione iniziale che fai che la funzione che immagini sia correlata ad una posizione in SERP.. non credo proprio sia cosi', ma piuttosto nella semplificazione massima della questione, esprima un "valore" , uno "score" da assegnare ad un documento... cosa che rende il ranking di una serp assolutamente "imprevedibile" ...

Nicola

nbriani

@gik25 said:

Altra domanda: i quality rater saranno tipo moderatori che bannano un sito? O semplicemente segnalano: sì, il sito usa testo nascosto. E poi google decide cosa fare? Ovvero rientrano nell'algoritmo di google con un "peso" molto maggiore degli altri fattori. Qual'è l'ipotesi più probabile?

Leggi qui.

Nicola

nbriani

@paocavo said:

Il modello di rappresentazione delle informazioni contenute nelle pagine web fa riferimento sicuramente ad un sistema lineare (Vector Space Model). Tutte le pagine contenute nell'intero corpus dei documenti catalogati da GoogleBot sono punti di uno spazio vettoriale N-dimensionale. Ogni documento è a sua volta un sottospazio vettoriale.
Ogni query inviata a GG è "posizionata" all'interno di questi spazi e ne viene calcolata la distanza rispetto a tutti gli altri punti (documenti).
Tutti i punti-documenti che rientrano entro una (iper)sfera di un certo raggio determineranno i risulati della ricerca.
Ma come ordinarli? Cioè qual'è l'algoritmo di ranking?

Ma se il MDR indicizzasse nel modo che indichi , il ranking non sarebbe soltanto una questione di vicinanza al punto-query? Cioè la vicinanza l'avresti calcolata proprio tenendo conto dei pesi dei vari elementi... o no?

gik25

@nbriani said:

Secondo me nella semplificazione iniziale che fai che la funzione che immagini sia correlata ad una posizione in SERP.. non credo proprio sia cosi', ma piuttosto nella semplificazione massima della questione, esprima un "valore" , uno "score" da assegnare ad un documento... cosa che rende il ranking di una serp assolutamente "imprevedibile" ...

Nicola

A scanso di equivoci, non è che penso di "fregare" google così facilmente :D. Ho tirato in ballo l'argomento perchè l'IR (il lato più tecnico del seo) sia poco dibattuto rispetto ad altre forme.

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. Non per fregarlo, ma per capirlo.

Il post di Paocavo ha portato un interessantissimo spunto di riflessione: su un db immenso bisogna usare degli indici multidimensionali, quindi prima ancora di qualsiasi algoritmo si utilizza un filtro basato su una distanza pesata. Gli indici su troppe dimensioni sono poco utili, quindi di solito si eliminano in prima battuta le dimensioni inutili. Poi? Tecnicamente quali sono i limiti di un computer, quali quelli di un sistema decentralizzato come google?

I datacenter sono un "punto debole" di google, trovato per sentito dire, ma prevedibile lato teorico. Ce ne sono sicuramente altri, no?

gik25

@nbriani said:

Ma se il MDR indicizzasse nel modo che indichi , il ranking non sarebbe soltanto una questione di vicinanza al punto-query? Cioè la vicinanza l'avresti calcolata proprio tenendo conto dei pesi dei vari elementi... o no?

Secondo me non è detto, una cosa è l'attinenza alla ricerca, un'altra il ranking della pagina.

Cerco: cane super bello
metti primo una pagina che parla di "cani super belli"
o un portale sui cani per la pagina "cani belli"

Una prima filtrata potrebbe servire a scartare le pagine non rilevanti (considerando le dimensioni relative alle parole chiave), la seconda a effettuare un ranking. Sulla prima più vicino al punto query non dovrebbe significare maggior ranking, o almeno dovrebbe entro certi limiti.

paocavo

@gik25 said:

Hai delle ipotesi sul numero di dimensioni? Perchè se un sistema è lineare, dato un punto-vettore-documento e lo scalare posizione nella serp, il vettore che lo pesa-trasforma non è impossibile da calcolare? Giusto?

Il numero di dimensioni è in continua crescita al crescere del numero di documenti e dei "concetti" contenuti nei documenti...

Perdona la mia incompetenza in geometria
Bisogna risalire a tutti i fattori usati da google, poi scegliere una serp non moderata (quindi non troppo spammosa) e risolvere l'equazione matriciale: ValoriDocumento*VettoreAlgoritmoGoogle = posizione nelle serp.

A meno di filtri antispam si dovrebbe trovare per ogni documento lo stesso VettoreAlgoritmoGoogle, dove sbaglio?

più o meno... ma a monte dovresti avere un copia dei DB di Google (e un buon super-computer...)

Altra domanda: i quality rater saranno tipo moderatori che bannano un sito? O semplicemente segnalano: sì, il sito usa testo nascosto. E poi google decide cosa fare? Ovvero rientrano nell'algoritmo di google con un "peso" molto maggiore degli altri fattori. Qual'è l'ipotesi più probabile?

Oltre a segnalare siti spammosi riordinano manualmente i risultati delle query sulla base di principi di qualità totale dei risultati.

paocavo

@nbriani said:

Ma se il MDR indicizzasse nel modo che indichi , il ranking non sarebbe soltanto una questione di vicinanza al punto-query? Cioè la vicinanza l'avresti calcolata proprio tenendo conto dei pesi dei vari elementi... o no?

una cosa è la vicinanza "semantica", un'altra è il ranking: attualmente basato principalmente sui fattori soliti off-page (qualità/quantita dei backlink, age factor, ecc...)

giorgiotave

Volevo segnalare il thread Faq sui Quality Rater a Gik (lo aveva fatto da nbriani, ma rifaccio :D)

gik25

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale? Ad esempio come linearizzi l'intervento di un operatore umano :D, inoltre scartano (danno output 0) a tutti i siti che ci incappano, quindi sono bruschi, non graduali.
Pensi sia corretta questa ipotesi?

Se l'ipotesi è plausibile, quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

nbriani

@paocavo said:

una cosa è la vicinanza "semantica", un'altra è il ranking: attualmente basato principalmente sui fattori soliti off-page (qualità/quantita dei backlink, age factor, ecc...)

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

gik25

@Giorgiotave said:

Volevo segnalare il thread Faq sui Quality Rater a Gik (lo aveva fatto da nbriani, ma rifaccio :D)

Ti ringrazio (e colgo l'occasione per ringraziare anche nbriani e paocavo). 3d molto interessante.

gik25

@nbriani said:

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

Penso di sì, la vicinanza semantica è uno dei fattori per il ranking e penso che anche gli altri elementi siano coordinate in quello o in successivi spazi vettoriali.

nbriani

@gik25 said:

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale? Ad esempio come linearizzi l'intervento di un operatore umano :D, inoltre scartano (danno output 0) a tutti i siti che ci incappano, quindi sono bruschi, non graduali.
Pensi sia corretta questa ipotesi?

Se l'ipotesi è plausibile, quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

Calma Gik25! ...non riesco a starti dietro... si penso che filtri, algoritmi e quant'altro dedicati allo spam, non agiscono "on the fly" .. ma lavorino sugli indici sia nella fase preliminare di indicizzazione sia in fasi "batch trasversali" . Sono "bruschi" si , penso proprio di si!

paocavo

@gik25 said:

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale?

Presumo, per motivi di complessità computazionale, che i filtri si avviino prima. Cioè in fase di post-crawling e prima dell'inserimento nell'indice.

Ad esempio come linearizzi l'intervento di un operatore umano :D,...

Credo con un campo in più nella matrice dei pesi

... quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

Boh!?

nbriani

@gik25 said:

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. ...per capirlo.

Sono d'accordo con te.. e la ritengo anche la parte piu' stimolante e divertente della faccenda!

Ti consiglio due o tre doc:

Questo, questo, e perchè no quest'altro...

Nicola

paocavo

@nbriani said:

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

Se per pre-ranking intendi stabilire se una pagina è indicizzabile (no-spam, ecc...) allora sì.

Credo (e spero) che i risultati estratti dall'indice siano motivati (quasi) esclusivamente dalla vicinanza semantica e sintattica (garantendo la "precisione")

paocavo

@gik25 said:

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. ...per capirlo

Continuiamo a pensare come esseri umani, sono i motori che si devono evolvere...:D

nbriani

@paocavo said:

Se per pre-ranking intendi stabilire se una pagina è indicizzabile (no-spam, ecc...) allora sì.

Credo (e spero) che i risultati estratti dall'indice siano motivati (quasi) esclusivamente dalla vicinanza semantica e sintattica (garantendo la "precisione")

Mah.. potrebbe già valere la rilevanza ed il trust del documento (quindi fattori off-page)

Sai qual'è il problema ? che io mica riesco ad avere le tue "visioni" n-dimensionali dell'indicizzazione , io son rimasto ad una visione piu' "lineare" (2D diciamo ) degli indici ... quindi potremmo star discutendo di mondi differenti...

gik25

@nbriani said:

Mah.. potrebbe già valere la rilevanza ed il trust del documento (quindi fattori off-page)

Sai qual'è il problema ? che io mica riesco ad avere le tue "visioni" n-dimensionali dell'indicizzazione , io son rimasto ad una visione piu' "lineare" (2D diciamo ) degli indici ... quindi potremmo star discutendo di mondi differenti...

Azz, la faccenda si fa complicata, qui c'è da riprendere sottomano qualche libro e perchè no anche qualche paper

Adesso non faccio davvero in tempo a leggere tutto, quindi passatemi qualche domanda a cui voi conoscete già la risposta

Facciamo il punto della situazione a livello pratico: google spiderizza e inserisce il documento sotto forma di vettore in un database per la vicinanza semantica.

Poi passa un primo indexer che filtra spam e calcola fattori offpage?

Prima domanda: i fattori offpage vengono calcolati in real time o post crawling? Come vengono salvati e in quale modo e in quale momento (algoritmicamente parlando) influiscono sul posizionamento?

E quelli inpage?

Userà diversi DB? Su diversi datacenter o ogni datacenter gestisce tutto? La parte di calcolo che riguarda il ranking è matriciale-vettoriale? La matrice di link tra un sito e l'altro per il calcolo del PR?

Sappiamo che utilizza il vector model per la semantica e calcola la distanza dalla nostra query eventualmente espansa. Ma rispetto a cosa calcola la distanza quando si tratta di fare il ranking? Usa ancora una distanza? Se sì da un punto o da un luogo geometrico (linea, retta, insieme di punti disgiunti)?

Ovvio che non è banale, ma riflettendoci (magari tra un anno) scopriamo qualcosa di veramente interessante.

albertoseo

@paocavo said:

Il modello di rappresentazione delle informazioni contenute nelle pagine web fa riferimento sicuramente ad un sistema lineare (Vector Space Model) [...]

Paocavo, come mai ne sei così certo? Per Google fai riferimento a un suo brevetto?