[IR] Google ha molti algoritmi, giusto?

nbriani

una cosa è la vicinanza "semantica", un'altra è il ranking: attualmente basato principalmente sui fattori soliti off-page (qualità/quantita dei backlink, age factor, ecc...)

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

gik25

@Giorgiotave said:

Volevo segnalare il thread Faq sui Quality Rater a Gik (lo aveva fatto da nbriani, ma rifaccio :D)

Ti ringrazio (e colgo l'occasione per ringraziare anche nbriani e paocavo). 3d molto interessante.

gik25

@nbriani said:

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

Penso di sì, la vicinanza semantica è uno dei fattori per il ranking e penso che anche gli altri elementi siano coordinate in quello o in successivi spazi vettoriali.

nbriani

@gik25 said:

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale? Ad esempio come linearizzi l'intervento di un operatore umano :D, inoltre scartano (danno output 0) a tutti i siti che ci incappano, quindi sono bruschi, non graduali.
Pensi sia corretta questa ipotesi?

Se l'ipotesi è plausibile, quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

Calma Gik25! ...non riesco a starti dietro... si penso che filtri, algoritmi e quant'altro dedicati allo spam, non agiscono "on the fly" .. ma lavorino sugli indici sia nella fase preliminare di indicizzazione sia in fasi "batch trasversali" . Sono "bruschi" si , penso proprio di si!

paocavo

@gik25 said:

I filtri antipspam però immagino siano a parte, eseguiti prima o dopo il ranking normale?

Presumo, per motivi di complessità computazionale, che i filtri si avviino prima. Cioè in fase di post-crawling e prima dell'inserimento nell'indice.

Ad esempio come linearizzi l'intervento di un operatore umano :D,...

Credo con un campo in più nella matrice dei pesi

... quanti siti incappano in questi filtri ad hoc (anti-spamengine ad esempio)?

Boh!?

nbriani

@gik25 said:

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. ...per capirlo.

Sono d'accordo con te.. e la ritengo anche la parte piu' stimolante e divertente della faccenda!

Ti consiglio due o tre doc:

Questo, questo, e perchè no quest'altro...

Nicola

paocavo

@nbriani said:

Si hai ragione... ma nello spazio n-dimensionale che descrivi e ipotizzi (che altro non è che " l'indicizzazione ") i punti/documenti devono essere "posizionati" con criteri che potrebbero essere già una sorta di "pre-Ranking" non credi?

Se per pre-ranking intendi stabilire se una pagina è indicizzabile (no-spam, ecc...) allora sì.

Credo (e spero) che i risultati estratti dall'indice siano motivati (quasi) esclusivamente dalla vicinanza semantica e sintattica (garantendo la "precisione")

paocavo

@gik25 said:

Dobbiamo pensare come una macchina, fare il punto su cosa sappiamo di Google. ...per capirlo

Continuiamo a pensare come esseri umani, sono i motori che si devono evolvere...:D

nbriani

@paocavo said:

Se per pre-ranking intendi stabilire se una pagina è indicizzabile (no-spam, ecc...) allora sì.

Credo (e spero) che i risultati estratti dall'indice siano motivati (quasi) esclusivamente dalla vicinanza semantica e sintattica (garantendo la "precisione")

Mah.. potrebbe già valere la rilevanza ed il trust del documento (quindi fattori off-page)

Sai qual'è il problema ? che io mica riesco ad avere le tue "visioni" n-dimensionali dell'indicizzazione , io son rimasto ad una visione piu' "lineare" (2D diciamo ) degli indici ... quindi potremmo star discutendo di mondi differenti...

gik25

@nbriani said:

Mah.. potrebbe già valere la rilevanza ed il trust del documento (quindi fattori off-page)

Sai qual'è il problema ? che io mica riesco ad avere le tue "visioni" n-dimensionali dell'indicizzazione , io son rimasto ad una visione piu' "lineare" (2D diciamo ) degli indici ... quindi potremmo star discutendo di mondi differenti...

Azz, la faccenda si fa complicata, qui c'è da riprendere sottomano qualche libro e perchè no anche qualche paper

Adesso non faccio davvero in tempo a leggere tutto, quindi passatemi qualche domanda a cui voi conoscete già la risposta

Facciamo il punto della situazione a livello pratico: google spiderizza e inserisce il documento sotto forma di vettore in un database per la vicinanza semantica.

Poi passa un primo indexer che filtra spam e calcola fattori offpage?

Prima domanda: i fattori offpage vengono calcolati in real time o post crawling? Come vengono salvati e in quale modo e in quale momento (algoritmicamente parlando) influiscono sul posizionamento?

E quelli inpage?

Userà diversi DB? Su diversi datacenter o ogni datacenter gestisce tutto? La parte di calcolo che riguarda il ranking è matriciale-vettoriale? La matrice di link tra un sito e l'altro per il calcolo del PR?

Sappiamo che utilizza il vector model per la semantica e calcola la distanza dalla nostra query eventualmente espansa. Ma rispetto a cosa calcola la distanza quando si tratta di fare il ranking? Usa ancora una distanza? Se sì da un punto o da un luogo geometrico (linea, retta, insieme di punti disgiunti)?

Ovvio che non è banale, ma riflettendoci (magari tra un anno) scopriamo qualcosa di veramente interessante.

albertoseo

@paocavo said:

Il modello di rappresentazione delle informazioni contenute nelle pagine web fa riferimento sicuramente ad un sistema lineare (Vector Space Model) [...]

Paocavo, come mai ne sei così certo? Per Google fai riferimento a un suo brevetto?

paocavo

@nbriani said:

Sai qual'è il problema ? che io mica riesco ad avere le tue "visioni" n-dimensionali dell'indicizzazione , io son rimasto ad una visione piu' "lineare" (2D diciamo ) degli indici ... quindi potremmo star discutendo di mondi differenti...

Probabilmente riesco a vedere le n-dimensioni perchè ho già implementato un sistema di valutazione della rilevanza semantica.
Solo che io mi sono limitato alla rilevanza (saliency score) delle frasi nell'ambito di un solo documento (solo fattori on-page).
Poi si dovrebbe estendere il dominio di conoscenza all'intero web!
Ne abbiamo discusso qui con Agoago (la segnalazione sarà una buona lettura per gik25

paocavo

@AlbertoSeo said:

Paocavo, come mai ne sei così certo? Per Google fai riferimento a un suo brevetto?

The Anatomy of a Large-Scale Hypertextual Web Search Engine
( di Sergey Brin and Lawrence Page)

poi ancora...

http://www.wilsonweb.com/seo/google-lsi.htm
http://press.princeton.edu/chapters/s8216.html

Buona lettura

agoago

Gik25 scrive:

"Prima domanda: i fattori offpage vengono calcolati in real time o post crawling? Come vengono salvati e in quale modo e in quale momento (algoritmicamente parlando) influiscono sul posizionamento?"

Prima di spiderizzare una pagina o un sito potrei considerare se ne valga la pena, se un sito nuovo fosse lincato da siti sgraditi, illegali, o se il suo dns puntasse per esempio sullo stesso IP di G, ovvio non avrebbe senso considerarlo a priori.
Inutile spiderizzarlo se poi si sa che sara' bannato.
Pertanto diamo per scontato che i fattori di ban-certo offpage saranno considerati prima della spiderizzazione, invece quelli che potrebbero far salire o far scendere (fino al ban) dopo che il sito e' stato spiderizzato.
Ora, per il secondo aspetto (real time o post crawling), il problema si complica quando discutiamo di un fattore T che assume dimensioni a fisarmonica a seconda di ipotetici riferimenti.
Un esempio, se il real time di un motore X durasse da subito a 10 ore di analisi, sarebbe ancora real time?
Certo lo sarebbe, un lungoooo real time!
E se analizzassi una pagina dopo 6 ore ma ci mettessi pochi secondi nel farlo... non sarebbe real time, ma nella pratica sarebbe piu' real e time del caso precedente.
I fattori offpage saranno poi salvati probabilmente a parte (rispetto chi e' stato spiderizzato) ed altrettanto probabilmente cambiando di continuo nel tempo riceveranno un puntatore sempre da chi e' stato spiderizzato.
In base al fatto che io pagina spiderizzata punto-sommo un valore esterno che cambia continuamente produrra' che il mio stesso valore totale, il mio stesso posizionamento ne subira' le debite conseguenze.
Poi ovviamente i motori fanno come gli pare, e' solo una base di discussione.

"E quelli inpage?"

Per quelli inpage vale il discorso del famoso fattore T, e' possibile che la pagina passi man mano attraverso decine di server che ne calcoleranno il valore per i rispettivi algoritmi che trattano. Se un server banna una pagina quella pagina non procedera' ulteriormente nel suo cammino. Ogni gruppo di lavoro si occupera' di un server (gruppo di macchine) dedicato al "loro" algoritmo. La pagina (sito??) arriva, o si becca un valore ed un vai avanti o si becca uno stop secco.

"Userà diversi DB? Su diversi datacenter o ogni datacenter gestisce tutto? La parte di calcolo che riguarda il ranking è matriciale-vettoriale? La matrice di link tra un sito e l'altro per il calcolo del PR?"

Potremmo ipotizzare un datacenter come il raccoglitore di chi e' passato attraverso tutti i vari server di controllo in un dato periodo di tempo o attraverso un dato percorso.
Un raccoglitore (DC) potrebbe contenere tutte le pagine che sono passate da un gruppo di lavoro sperimentale (percorso dato), altri le pagine storiche, altre il normale lavoro di ieri, di oggi o di un mese fa (periodo di tempo). Sono solo ottimizzazioni create per sapere cosa funziona meglio, per avere dei backup, per distribuire i carichi, etc etc.
Il discorso vettore e matrici e' presente come il prezzemolo nei vari brevetti dei motori, pertanto... piatto piu' piatto meno...

"Sappiamo che utilizza il vector model per la semantica e calcola la distanza dalla nostra query eventualmente espansa. Ma rispetto a cosa calcola la distanza quando si tratta di fare il ranking? Usa ancora una distanza? Se sì da un punto o da un luogo geometrico (linea, retta, insieme di punti disgiunti)?"

Ci possono essere tantissimi modi di pesare una pagina od un insieme di documenti.
A mio avviso sempre di piu' di applicano algoritmi che sottraggono punti, rispetto quelli che li assegnano.
Come dire, tutti i siti-pagine partono a 1000 punti, poi man mano gli viene levato valore.
Sei giovane? Via 100 punti, hai pochi contenuti? Via 140 punti. Hai pochi link seri? Via 200 punti, e via dicendo.
Quel che rimane poi viene rapportato alla query, perche' ovviamente parliamo di un ranking rapportato ad una query, non ad un ranking assoluto.
Che poi uno o piu' algoritmi si basino su angoli vettoriali tra 2 o piu' punti, in uno spazio bi o tridimensionale, conta unicamente a fini didattici e di studio, perche' in pratica !oggi! ai seo non fa molta differenza.

Una considerazione.
Ipotizziamo che un giorno un miliardario mi chieda di sviluppargli un buon motore e mi dia fondi illimitati.
(Io) non capendo molto di algoritmi per prima cosa gli diro' che dovra' assumere tanti esperti diversi ed organizzare dei gruppi di lavoro.
Ogni gruppo di lavoro conoscera' alla perfezione solo la parte che gli compete (algoritmo), in modo che in caso qualcuno di loro si vendesse alla concorrenza non potrebbe comunque svelare tutti i segreti del motore.
Poi pero' dovrei assumere (con i soldi del miliardario) dei coordinatori, esperti che assemblino-accorpino il valore dei vari algoritmi.
Algoritmi dei quali probabilmente sapranno poco, come un cuoco che sceglie le proporzioni dei vari ingredienti, ingredienti che ovviamente non e' in grado di produrre, ma "solo" di assemblare al meglio nella sua personalissima ricetta.
Il miliardario pero' mi fa notare che se un esperto (per ogni gruppo di lavoro) ed un coordinatore svelassero (per dire ad un seo) i loro segreti il fortunato seo metterebbe in ginocchio il motore tempo poche settimane.

E qui mi giocherei il mio stipendio di capo supremo del motore perche' risponderei al miliardario che sbaglia a ragionare cosi', lo stesso sbaglio che fanno molti seo (new ed old).

Gli direi che anche se un seo conoscesse perfettamente tutti gli algoritmi di un motore per primeggiare dovrebbe comunque soddisfare la quasi totalita' di quegli algoritmi, il che nella pratica non e' possibile.
Non potrebbe inventarsi dall'oggi al domani un sito anziano di anni ed anni, inventarsi backlink seri spontanei, riempire i suoi siti di contenuti utili ed originali, ed anche se creasse migliaia di pagine perfettamente ottimizzate gli direi di non preoccuparsi, perche' conta principalmente il valore complessivo del sito e a parita' di valore con 10 o 10.000 pagine (in uno stesso sito) gli accessi gira e rigira saranno sempre quelli (proprio per evitare che chi produce pagina in quantita' industriale come forum e blog non ammazzino il mercato).

Insomma rispetto anni fa, oggi conoscere od azzeccare fortunatamente uno o piu' algoritmi conta sempre meno ai fini dei soldoni.
E' ipotizzabile che fra qualche anno i motori sventoleranno ai 4 venti i loro algoritmi fregandosene di seo e spammer, perche' innanzitutto un motore trasparente e' un motore serio e poi perche' il miglior modo per evitare furbate da parte di pochi e' proprio fare in modo che tutti siano furbi... e fine dello spam.

Quel giorno, poi non cosi' remoto, G ci spieghera' per benino come calcola i suoi ranking, linee rette e punti disguinti.
Ci sara' un breve periodo di caos in cui i seo piu' aggiornati guadagneranno subito terreno, poi come in ogni cosa, col passare del tempo tutto si appianera' ed i wm si preoccuperanno unicamente di cosa scrivere in una pagina e non di dove o come scrivere nella pagina... perche' useranno gli strumenti adatti per ottimizzarla.

Sempre da quel giorno i seo che nel frattempo avranno imparato a mangiare e bersi i brevetti come acqua fresca capiranno che si incassa veramente producendo per se o per gli altri tools di ottimizzazione, fregandosi le mani mentre tanti, troppi discuteranno quale tools sul mercato riproduca piu' fedelmente l'algoritmo pubblico di turno.

gik25

@agoago said:

Gik25 scrive:
Gli direi che anche se un seo conoscesse perfettamente tutti gli algoritmi di un motore per primeggiare dovrebbe comunque soddisfare la quasi totalita' di quegli algoritmi, il che nella pratica non e' possibile.
Non potrebbe inventarsi dall'oggi al domani un sito anziano di anni ed anni, inventarsi backlink seri spontanei, riempire i suoi siti di contenuti utili ed

Insomma rispetto anni fa, oggi conoscere od azzeccare fortunatamente uno o piu' algoritmi conta sempre meno ai fini dei soldoni.
E' ipotizzabile che fra qualche anno i motori sventoleranno ai 4 venti i loro algoritmi fregandosene di seo e spammer, perche' innanzitutto un motore trasparente e' un motore serio e poi perche' il miglior modo per evitare furbate da parte di pochi e' proprio fare in modo che tutti siano furbi... e fine dello spam.

Sono pienamente daccordo. Anche perchè ho da poco scoperto che la grafica, la struttura del sito e la posizione degli annunci sono importanti almeno quanto le keyword.
Un sito è contenuti, navigabilità, grafica, immagine, ecc.

Capire i motori forse è più per un fattore di sfida, ma a mio avviso può servire ad evitare ban di massa, penalizzazioni ma soprattutto a non mancare un guadagno per una singola mancata ottimizzazione (c'è sempre un collo di bottiglia).

@agoago said:

Gik25 scrive:
Producendo per se o per gli altri tools di ottimizzazione, fregandosi le mani mentre tanti, troppi discuteranno quale tools sul mercato riproduca piu' fedelmente l'algoritmo pubblico di turno.

Ho proposto a Giorgio di creare una sezione opensource per sviluppare programmi e classi unendo gli sforzi. Il primo progetto sarà un programma per il monitoraggio dell'utente, poi condividerò una parte del codice che avevo iniziato per un tool per seo e per il motore di ricerca.
L'idea è di creare uno strumento utile (anche economicamente), minimizzando sforzi e investimenti lavorando assieme.