[IR] Google ha molti algoritmi, giusto?

gik25

@mix said:

Io sono convinto che ogni serp darà un risultato a se!

Dobbiamo tener conto anche le serp speciali, quelle che io amo definire "commerciali" dove google in primis ci mette lo zampino e ci mangia.

Approposito ci sono altri malati che la pensano come me sull'esistenza di queste serp "commerciali" ?

Sono solo fantasie mie oppure avete testato e scoperto dell'esistenza di queste serp?

Le serp in questione sono quelle sul turismo?

Comunque leggevo in un altro 3d che qualcuno la pensa come te a riguardo, del resto la cosa non mi stupirebbe più di tanto: Google adesso è una società per azioni. Se la scelta non penalizza eccessivamente l'utente e gli fa guadagnare soldi potrebbe benissimo adottarla.

mix

Non parlo solo delle serp di turismo, ci sono svariate serp in cui secondo me google ci mette lo zampino.

La penso esattamente cosi, google è una società per azioni, e deve guadagnare.

Ogni metodo è lecito, l'importante è non "sporcheggiare".

paocavo

Il modello di rappresentazione delle informazioni contenute nelle pagine web fa riferimento sicuramente ad un sistema lineare (Vector Space Model). Tutte le pagine contenute nell'intero corpus dei documenti catalogati da GoogleBot sono punti di uno spazio vettoriale N-dimensionale. Ogni documento è a sua volta un sottospazio vettoriale.
Ogni query inviata a GG è "posizionata" all'interno di questi spazi e ne viene calcolata la distanza rispetto a tutti gli altri punti (documenti).
Tutti i punti-documenti che rientrano entro una (iper)sfera di un certo raggio determineranno i risulati della ricerca.
Ma come ordinarli? Cioè qual'è l'algoritmo di ranking?
Questo non ci è dato sapere.
Sappiamo solo che esiste una matrice di pesi utilizzata per ottenere l'ordinamento finale. Il sistema comunque rimane lineare. Sistemi non-lineari sono: 1) poco controllabili, 2) poco osservabili e 3) non asintoticamente stabili.
Alcune (molte...) query sono però "sistemate" a manina (vedi il lavoro fatto dai Quality rater) per vari motivi, primo fra tutti quello commerciale

gik25

@paocavo said:

Il modello di rappresentazione delle informazioni contenute nelle pagine web fa riferimento sicuramente ad un sistema lineare (Vector Space Model). Tutte le pagine contenute nell'intero corpus dei documenti catalogati da GoogleBot sono punti di uno spazio vettoriale N-dimensionale. Ogni documento è a sua volta un sottospazio vettoriale.
Ogni query inviata a GG è "posizionata" all'interno di questi spazi e ne viene calcolata la distanza rispetto a tutti gli altri punti (documenti).
Tutti i punti-documenti che rientrano entro una (iper)sfera di un certo raggio determineranno i risulati della ricerca.
Ma come ordinarli? Cioè qual'è l'algoritmo di ranking?
Questo non ci è dato sapere.
Sappiamo solo che esiste una matrice di pesi utilizzata per ottenere l'ordinamento finale. Il sistema comunque rimane lineare. Sistemi non-lineari sono: 1) poco controllabili, 2) poco osservabili e 3) non asintoticamente stabili.
Alcune (molte...) query sono però "sistemate" a manina (vedi il lavoro fatto dai Quality rater) per vari motivi, primo fra tutti quello commerciale

Hai delle ipotesi sul numero di dimensioni? Perchè se un sistema è lineare, dato un punto-vettore-documento e lo scalare posizione nella serp, il vettore che lo pesa-trasforma non è impossibile da calcolare? Giusto?

Perdona la mia incompetenza in geometria
Bisogna risalire a tutti i fattori usati da google, poi scegliere una serp non moderata (quindi non troppo spammosa) e risolvere l'equazione matriciale: ValoriDocumento*VettoreAlgoritmoGoogle = posizione nelle serp.

A meno di filtri antispam si dovrebbe trovare per ogni documento lo stesso VettoreAlgoritmoGoogle, dove sbaglio?

Altra domanda: i quality rater saranno tipo moderatori che bannano un sito? O semplicemente segnalano: sì, il sito usa testo nascosto. E poi google decide cosa fare? Ovvero rientrano nell'algoritmo di google con un "peso" molto maggiore degli altri fattori. Qual'è l'ipotesi più probabile?

nbriani

@gik25 said:

dove sbaglio?

Secondo me nella semplificazione iniziale che fai che la funzione che immagini sia correlata ad una posizione in SERP.. non credo proprio sia cosi', ma piuttosto nella semplificazione massima della questione, esprima un "valore" , uno "score" da assegnare ad un documento... cosa che rende il ranking di una serp assolutamente "imprevedibile" ...

Nicola

nbriani

@gik25 said:

Altra domanda: i quality rater saranno tipo moderatori che bannano un sito? O semplicemente segnalano: sì, il sito usa testo nascosto. E poi google decide cosa fare? Ovvero rientrano nell'algoritmo di google con un "peso" molto maggiore degli altri fattori. Qual'è l'ipotesi più probabile?

Leggi qui.

Nicola

nbriani

@paocavo said:

Il modello di rappresentazione delle informazioni contenute nelle pagine web fa riferimento sicuramente ad un sistema lineare (Vector Space Model). Tutte le pagine contenute nell'intero corpus dei documenti catalogati da GoogleBot sono punti di uno spazio vettoriale N-dimensionale. Ogni documento è a sua volta un sottospazio vettoriale.
Ogni query inviata a GG è "posizionata" all'interno di questi spazi e ne viene calcolata la distanza rispetto a tutti gli altri punti (documenti).
Tutti i punti-documenti che rientrano entro una (iper)sfera di un certo raggio determineranno i risulati della ricerca.
Ma come ordinarli? Cioè qual'è l'algoritmo di ranking?

Ma se il MDR indicizzasse nel modo che indichi , il ranking non sarebbe soltanto una questione di vicinanza al punto-query? Cioè la vicinanza l'avresti calcolata proprio tenendo conto dei pesi dei vari elementi... o no?

gik25

@nbriani said:

Secondo me nella semplificazione iniziale che fai che la funzione che immagini sia correlata ad una posizione in SERP.. non credo proprio sia cosi', ma piuttosto nella semplificazione massima della questione, esprima un "valore" , uno "score" da assegnare ad un documento... cosa che rende il ranking di una serp assolutamente "imprevedibile" ...

Nicola

A scanso di equivoci, non è che penso di "fregare" google così facilmente :D. Ho tirato in ballo l'argomento perchè l'IR (il lato più tecnico del seo) sia poco dibattuto rispetto ad altre forme.

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. Non per fregarlo, ma per capirlo.

Il post di Paocavo ha portato un interessantissimo spunto di riflessione: su un db immenso bisogna usare degli indici multidimensionali, quindi prima ancora di qualsiasi algoritmo si utilizza un filtro basato su una distanza pesata. Gli indici su troppe dimensioni sono poco utili, quindi di solito si eliminano in prima battuta le dimensioni inutili. Poi? Tecnicamente quali sono i limiti di un computer, quali quelli di un sistema decentralizzato come google?

I datacenter sono un "punto debole" di google, trovato per sentito dire, ma prevedibile lato teorico. Ce ne sono sicuramente altri, no?

gik25

@nbriani said:

Ma se il MDR indicizzasse nel modo che indichi , il ranking non sarebbe soltanto una questione di vicinanza al punto-query? Cioè la vicinanza l'avresti calcolata proprio tenendo conto dei pesi dei vari elementi... o no?

Secondo me non è detto, una cosa è l'attinenza alla ricerca, un'altra il ranking della pagina.

Cerco: cane super bello
metti primo una pagina che parla di "cani super belli"
o un portale sui cani per la pagina "cani belli"

Una prima filtrata potrebbe servire a scartare le pagine non rilevanti (considerando le dimensioni relative alle parole chiave), la seconda a effettuare un ranking. Sulla prima più vicino al punto query non dovrebbe significare maggior ranking, o almeno dovrebbe entro certi limiti.

paocavo

@gik25 said:

Hai delle ipotesi sul numero di dimensioni? Perchè se un sistema è lineare, dato un punto-vettore-documento e lo scalare posizione nella serp, il vettore che lo pesa-trasforma non è impossibile da calcolare? Giusto?

Il numero di dimensioni è in continua crescita al crescere del numero di documenti e dei "concetti" contenuti nei documenti...

Perdona la mia incompetenza in geometria
Bisogna risalire a tutti i fattori usati da google, poi scegliere una serp non moderata (quindi non troppo spammosa) e risolvere l'equazione matriciale: ValoriDocumento*VettoreAlgoritmoGoogle = posizione nelle serp.

A meno di filtri antispam si dovrebbe trovare per ogni documento lo stesso VettoreAlgoritmoGoogle, dove sbaglio?

più o meno... ma a monte dovresti avere un copia dei DB di Google (e un buon super-computer...)

Altra domanda: i quality rater saranno tipo moderatori che bannano un sito? O semplicemente segnalano: sì, il sito usa testo nascosto. E poi google decide cosa fare? Ovvero rientrano nell'algoritmo di google con un "peso" molto maggiore degli altri fattori. Qual'è l'ipotesi più probabile?

Oltre a segnalare siti spammosi riordinano manualmente i risultati delle query sulla base di principi di qualità totale dei risultati.

paocavo

@nbriani said:

Ma se il MDR indicizzasse nel modo che indichi , il ranking non sarebbe soltanto una questione di vicinanza al punto-query? Cioè la vicinanza l'avresti calcolata proprio tenendo conto dei pesi dei vari elementi... o no?

una cosa è la vicinanza "semantica", un'altra è il ranking: attualmente basato principalmente sui fattori soliti off-page (qualità/quantita dei backlink, age factor, ecc...)

giorgiotave

Volevo segnalare il thread Faq sui Quality Rater a Gik (lo aveva fatto da nbriani, ma rifaccio :D)

gik25

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale? Ad esempio come linearizzi l'intervento di un operatore umano :D, inoltre scartano (danno output 0) a tutti i siti che ci incappano, quindi sono bruschi, non graduali.
Pensi sia corretta questa ipotesi?

Se l'ipotesi è plausibile, quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

nbriani

@paocavo said:

una cosa è la vicinanza "semantica", un'altra è il ranking: attualmente basato principalmente sui fattori soliti off-page (qualità/quantita dei backlink, age factor, ecc...)

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

gik25

@Giorgiotave said:

Volevo segnalare il thread Faq sui Quality Rater a Gik (lo aveva fatto da nbriani, ma rifaccio :D)

Ti ringrazio (e colgo l'occasione per ringraziare anche nbriani e paocavo). 3d molto interessante.

gik25

@nbriani said:

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

Penso di sì, la vicinanza semantica è uno dei fattori per il ranking e penso che anche gli altri elementi siano coordinate in quello o in successivi spazi vettoriali.

nbriani

@gik25 said:

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale? Ad esempio come linearizzi l'intervento di un operatore umano :D, inoltre scartano (danno output 0) a tutti i siti che ci incappano, quindi sono bruschi, non graduali.
Pensi sia corretta questa ipotesi?

Se l'ipotesi è plausibile, quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

Calma Gik25! ...non riesco a starti dietro... si penso che filtri, algoritmi e quant'altro dedicati allo spam, non agiscono "on the fly" .. ma lavorino sugli indici sia nella fase preliminare di indicizzazione sia in fasi "batch trasversali" . Sono "bruschi" si , penso proprio di si!

paocavo

@gik25 said:

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale?

Presumo, per motivi di complessità computazionale, che i filtri si avviino prima. Cioè in fase di post-crawling e prima dell'inserimento nell'indice.

Ad esempio come linearizzi l'intervento di un operatore umano :D,...

Credo con un campo in più nella matrice dei pesi

... quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

Boh!?

nbriani

@gik25 said:

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. ...per capirlo.

Sono d'accordo con te.. e la ritengo anche la parte piu' stimolante e divertente della faccenda!

Ti consiglio due o tre doc:

Questo, questo, e perchè no quest'altro...

Nicola

paocavo

@nbriani said:

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

Se per pre-ranking intendi stabilire se una pagina è indicizzabile (no-spam, ecc...) allora sì.

Credo (e spero) che i risultati estratti dall'indice siano motivati (quasi) esclusivamente dalla vicinanza semantica e sintattica (garantendo la "precisione")