"Gli è tutto sbagliato, tutto da rifare..." (Bartali)

lowlevel

Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :

wi,j = tfi,j/max tfi,j * log(D/dfi)*

doopcircus, la tua analisi è tutta corretta, ma vieni tratto in inganno dalla funzione di quella formula.

Non si tratta di "quello finale". Quella formula determina il peso di un singolo termine all'interno di un documento, non il peso globale di un documento rispetto alla query dell'utente, nemmeno nel caso in cui la query dovesse coincidere con il termine.

Successivamente, l'insieme dei pesi di tutti i termini di un documento stabilisce la posizione di quel documento all'interno di uno spazio multidimensionale.

In fase di ricerca, il motore calcola la "distanza" tra ciascun documento e la query e riporta i risultati in ordine di "distanza" minore (se si escludono gli altri fattori di ranking, ovviamente).

"distanza" è volutamente virgolettato in quanto in realtà si usa una misurazione differente. Ma il concetto generale rimane quello della vicinanza geometrica. Nei testi che ti ho segnalato trovi anche la formula per calcolare tali "distanze".

stealth

è una specie di battaglia navale.
l'insieme dei pesi dei termini di una pagina definisce il peso totale della pagina.
questa viene posta in uno spazio....dipenderà dallarelazione query/termini pagine a definire il risultato.

comunque sia, uno spammer incrementando i valori di ogni parola quindi del documento stesso riuscirebbe a salire sulle serp...saranno gli algoritmi di Pr o di antispam ad abbassare il punteggio della pagina...

beke

Si, è proprio a causa dello spam e del caos presente sul web che l'analisi del contenuto non è sufficiente ad ottenere risultati validi.

Quindi si fanno intervenire altri fattori, come per esempio la LP, il PR, il Trust, punteggi HUB ed AUTHORITY ecc. che modificano i punteggi ottenuti con l'analisi del contenuto fatta a query time.

umor

saranno gli algoritmi di Pr o di antispam

Per i filtri di antispam, beh dipende:
se un testo è calcolato bene è quasi impossibile beccarlo, certo poi ci son quelli sulla struttura i link ecc..

Più che altro è il TR a fregare lo spam (ma anche i siti seri) e la "distribuzione degli accessi" (vd. tanti post vecchi su html.it).

Per cui, di per se, fare un testo ottimizzato usando queste strategie serve a ben poco se non è accorpato da n altri fattori.

Morale della favola questo "sistema" può si avvicinare semanticamente (o statisticamente forse è meglio dire) una pagina ad una query ma se non abbiamo sufficiente valore servirà a ben poco.

Magari Low ha qualche altro documento da farci leggere in proposito ?

doopcircus

@beke said:

... altri fattori, come per esempio la LP, il PR, il Trust, punteggi HUB ed AUTHORITY ecc. che modificano i punteggi ottenuti con l'analisi del contenuto fatta a query time.

LP,Trust, punteggi HUB e Authority... ehm ...
Scusate l'ignoranza ma son novizio.
Mi spiegate meglio ( ne so qualcosa ma non in termini "scientifici" )

Comunue l'idea che mi son fatto è che , alla fine dei conti, l'ordine di ranking di google sia ,data una presenza "qualificata" delle keyword nel titolo ( possibilmente da sole e attaccate ) e un'adeguata ( ma non eccessiva ) ponderazione delle parole, all'80% dipendente dal page rank: magari dico una scemata ma questo è quello che mi è sembrato di notare empiricamente, facendo cioè il percorso inverso a quello indicato da Low e che giustamente lui definisce errato.

Proprio perchè penso abbia completamente ragione sto cercando di adottare il più possibile anche l'approccio dal basso diciamo, cioè lo studio del ragionamento dell' IR ( in attesa delle nuove dritte suggerite da Low) ma comunque l'impressione empirica e quindi potenzialmente basata su un enorme equivoco è che, alla fine dei conti, il PR conta quasi più della ponderazione dei termini ....

Detto questo siete anche liberi di spararmi

positano

uaahh!!! ragazzi il cervello sta incominciando a fumare
Anche se non posto (ci pensa mio fratello Fabio) molto leggo cmq con attenzione, resto in attesa di contromosse di Low, e perchè no, della cara Mamilù che vedo che con disegnini vari ci sa fare.

lowlevel

@doopcircus said:

Comunue l'idea che mi son fatto è che , alla fine dei conti, l'ordine di ranking di google sia ,data una presenza "qualificata" delle keyword nel titolo ( possibilmente da sole e attaccate ) e un'adeguata ( ma non eccessiva ) ponderazione delle parole, all'80% dipendente dal page rank:

Nessun motore di ricerca sarebbe così folle da assegnare ad un solo elemento (qualunque esso sia) l'80% del peso dei ranking. Sarebbe un suicidio, tutti i webmaster e SEO si butterebbero a conseguire solo quell'elemento, nella massima quantità possibile, e la qualità dei risultati delle ricerche sarebbe terribile.

facendo cioè il percorso inverso a quello indicato da Low e che giustamente lui definisce errato.

Urge una precisazione: quel percorso non è errato ed io non potrei mai affermare una cosa simile.

In un sistema in cui gli algoritmi sono segreti e si conosce solo il loro prodotto finale, le tecniche per risalire dal prodotto ai criteri che lo determinano sono indispensabili e devono per forza di cose fondarsi su test e soluzioni empiriche.

Tuttavia, (e questo è ciò che io tento di evidenziare) per riuscire a determinare anche empiricamente attraverso la semplice osservazione che Google utilizza un tipo di espansione delle query sfruttando tecniche di clustering che fanno uso di analisi globali del corpus, bisogna comunque sapere cosa è l'espansione delle query, che cosa si intende per clustering, che tipo di analisi globali esistono, e così via.

In poche parole: non si può riconoscere qualcosa di cui si ignora l'esistenza.

La differenza tra il modus operandi che finora i SEO hanno attuato e l'approccio che io ho consigliato di adottare è culturale: se non si è medici, non si può diagnosticare una malattia osservando dei sintomi.

Partire dai sintomi per risalire alla causa non è un percorso sbagliato. Però è pericoloso farlo se non si possiede almeno un'infarinatura di cultura medica.

agoago

Provo ammirazione per quanto scrive LowLevel.

Per esempio la frase:

"Tanto per fare un esempio: la maggior parte dei SEO ha un approccio keyword-based al posizionamento e l'ottimizzazione del testo di un documento viene vista solo in funzione dell'inserimento delle keyword nel testo/codice."

e', come dire, fotografare ed esporre il vero. Che piaccia o meno.
Cosi' a seguire.

Per amor di sincerita' sono fin invidioso di questo suo post, visto che concordo mi chiedo, perche' non l'ho scritto io? Semplice, perche' per quanto sei bravo c'e' sempre qualcuno piu' bravo di te.

Per quanto invece riguarda i "vecchi" documenti di IR vale la pena capirli e studiarli attentamente per poi non usarli, per esempio:

doc 1: auto (3 times), car (1 times), insurance (3 times)
doc 2: auto (1 times), car (2 times), insurance (4 times)
doc 3: auto (2 times), car (3 times), insurance (0 times)

Rank 1: Doc 2 = 0.8729
Rank 2: Doc 1 = 0.6882
Rank 3: Doc 3 = 0

As we can see, for the query "insurance"

Document 2 is very relevant.
Document 1 is less relevant.
Document 3 is completely irrelevant.

Come e' scritta e composta una pagina e' irrilevante al fine del sort. Che sia presente o meno un termine della query nel testo conta poco o nulla.

Che sia presente o meno un termine della query nei link che puntano ad una data pagina o sito conta poco o nulla.

Il Tr, per fare un esempio e' vecchio, prima ancora che prenda piede.

Sono tutti paliativi messi online anno per anno per gabbare seo, utenti ed azionisti.

Un sito, un libro, un' opera d'arte e' fatta di elementi (se unici) che non possono e devono dipendere od essere giudicati per cio' che sono ma da cio' che emanano-rappresentano.

Se cerco soldati devo trovare: si sta come d'autunno sugli alberi le foglie, e viceversa.

Anche se soldati non e' presente nella frase, anche se quella pagina non fosse lincata per la key soldati.

E' dall'analisi costante di cosa vuole e ricerca l'utente che si capisce giorno per giorno, in modo dinamico, cosa conta e cosa no, e' il valore del sito che ci permette di primeggiare nelle serp, e' dal computo di chi non ci linca e non da chi ci linca che si calcola il peso del sito, e' solo grazie ad un sistema ibrido uomo&macchina che vengono espresse le migliori serp, almeno fin tanto che l'ai non sara' a livello del test di turing.

Studiare l'ir e' importantissimo, ma se intendiamo come ir le vecchie formule, e' importantissimo al fine di bannarle.

Non lo credete. Sono pronto a mettere in discussione qualsiasi formula di Ir che vorrete sottopormi.

Mi parlate di analisi locale, dimostrero' che non conta nulla rispetto a correlazioni esterne. Discutiamo di correlazioni e dipendenze esterne, allora contrappongo semantica ed originalita' del testo.

Ampio contenuto originale? Cosa conta rispetto anzianita' del sito...

Ma allora e' la somma di tanti algoritmi che determina il valore di un sito, di una pagina...
No non lo e'.

Lo pensavo fino a poco tempo fa, e lo pensavo da anni, influenzato e condizionato perche' gli stessi motori ritenevano che questo ragionamento fosse basilare, essenziale, fosse corretto.

E' vero: "Gli è tutto sbagliato, tutto da rifare..." (Bartali) ma LowLevel non immagini quanto.

lowlevel

Agoago, io sono d'accordo con te su moltissimi dei punti che tu evidenzi.

Tuttavia, usando una metafora matematica, bisogna iniziare dalle tabelline. Non perché le tabelline siano strettamente indispensabili quando si arriva allo studio delle funzioni (tanto ormai si usano le calcolatrici) ma perché sono indispensabili per acquisire una utilissima forma mentis.

Via via che questa forma mentis viene acquisita e affiancando la teoria ai test, si diventa sempre più consapevoli che le tabelline hanno poco a che fare con ciò che i motori realmente fanno e che l'argomento è molto più complesso della banale applicazione di una formula tf*idf.

Il punto è: questa consapevolezza deve arrivare con l'approfondimento e lo studio. Ciò che forma è il tragitto percorso, non la destinazione raggiunta. Altrimenti invece della forma mentis che si aspira ad ottenere ci si ritrova nuovamente di fronte ad una serie di regolette di posizionamento da applicare ciecamente, senza ragionare. Questo va evitato perché non porta benefici alle capacità globali del settore SEO.

Io potrei anche mettermi a scrivere che l'importanza/autorevolezza di un sito già da anni viene calcolata sempre meno sui backlink e sempre più su altri elementi, sconosciuti ai più, ma il mio obiettivo non è quello di regalare pesce alla gente. Io ho voluto solo spronarli ad imparare a pescare e nella famiglia di Giorgiotave ho conosciuto elementi che avrebbero potuto accogliere il mio invito senza pensarci due volte.

Termino aggiungendo una cosa: la fantasia ci aiuta ad uscire dagli schemi, ci eleva e ci permette di osservare l'intero disegno dall'alto. Ma senza controllo rischiamo di perderci in volo.

Buon nuovo anno a tutti!

paolino

mi stavo chiedendo i motori di ricerca commerciali quale dei modelli proposti dalla teoria utilizzano....

è quasi certo che MSN implementa un modello probabilistico ( con i risultati che stiamo vedendo )

il modello Booleano è poco preciso mentre la logica fuzzy è utilizzabile a patto di avere un bel pò di conoscenze nel DB....

l'unica possibilità sembra proprio essere il vector space model

che ne pensate?

claudioweb

@paolino said:

mi stavo chiedendo i motori di ricerca commerciali quale dei modelli proposti dalla teoria utilizzano....

è quasi certo che MSN implementa un modello probabilistico ( con i risultati che stiamo vedendo )

Rispondo per quanto riguarda Msn. So di andare totalmente OT, ma le tecniche usate sono simili a quelle che fanno funzionare [url=http://20q.net/]questo giochino...

Sono cioè tecniche più complesse che si basano su reti neurali e sistemi di intelligenza artificiale.

Questa impostazione molte volte fa commettere a Msn gravi errori, ma altrettanto spesso permette di fornire risultati migliori rispetto a Google...

Inoltre si tratta di un sistema intelligente, che prevede la capacità di apprendimento. Quindi, più passa il tempo, migliori saranno i risultati restituiti.

Zio Bill non è scemo...

Ciao

lowlevel

@paolino said:

l'unica possibilità sembra proprio essere il vector space model

Non è l'unica, ne esistono parecchie.

Innanzitutto non bisogna dare per scontato che un motore di ricerca si affidi ad un unico modello, sarebbe un grande errore.

Un modello è un modo di vedere le cose, la tipologia di approccio da seguire per raggiungere un obiettivo. Fasi differenti dei processi usati da un motore di ricerca possono appoggiarsi a modelli differenti.

A questo si aggiunge il fatto che alcuni modelli, pur fondandosi su concetti diversi, possono condurre agli stessi risultati a seconda di come vengono implementati. Ad esempio il Belief Network Model, che è di tipo probabilistico, può essere implementato in modo da ottenere gli stessi risultati del Vector Model. In un certo senso, il primo modello è progettato su un livello di astrazione maggiore e può dunque "inglobare" modelli più specifici.

In sintesi, non bisogna vedere i vari modelli come delle soluzioni necessariamente alternative tra di loro, ma come dei criteri di diverso genere che possono lavorare assieme.

Precisato tutto questo, il vector model rimane indubbiamente uno dei più diffusi e più comodi da usare. Nelle applicazioni più basilari, non richiede calcoli onerosi e rimane un modello molto semplice da capire e che ha il vantaggio di utilizzare un unico spazio in cui sia i documenti sia le query esistono, a differenza di quanto accade in diversi altri modelli.

Quoto claudioweb per quanto riguarda MSN ed aggiungo che, come dicevo prima, ci troviamo comunque di fronte ad un motore che funziona usando più di un modello. L'apprendimento sviluppato da MSN è infatti di tipo assistito, il che significa che il sistema va "nutrito" da esseri umani in maniera semiautomatica e che questo processo richiede tempo.

Fino a quando le reti neurali non saranno autonomamente in grado di fornire risultati ottimi, è altamente probabile che vengano in loro aiuto delle tecniche più semplici e "classiche", ad esempio quelle del term vector model, per compensare agli errori.

fheller

Questo thread per me è una rivelazione e questa community mi sorprende ancora una volta.

La molla che un po' più di un anno fa mi ha fatto avvicinare alle pratiche SEO e ai motori di ricerca è stato un seminario che ho frequentato durante un viaggio di lavoro in Germania: avevamo una pausa di mezza giornata e ci sono andato più per ingannare il tempo che per altro.

Il titolo era più o meno "Data Mining testuale e ricerca dei significati" (non ricordo ora il titolo esatto in inglese)

trovai l'argomento interessantissimo e lo divenne ancor di più quando, tra i principali ambiti di applicazione, vennero indicati i motori di ricerca.

Di MdR capivo poco, seguivo di tanto in tanto l'ottimo motoricerca.info di Low, ma più per curiosità che altro: non era il mio lavoro nè credevo lo sarebbe diventato.

Fino a quel momento, a causa di una mia conoscenza superficiale della materia, avevo sempre avuto l'impressione che il lavoro di SEO richiedesse solo alcune pratiche elementari, molta manovalanza, una certa dose di esperienza empirica e altrettanta di fortuna.

Da allora ho cominciato a documentarmi e pur di imparare in fretta (anche rinunciando ad una fettina di stipendio...) ho colto l'offerta di lavoro di una SEM agency.

Il background empirico grazie al lavoro (e alla preparazione di un collega in particolare) l'ho ricevuto, ma rimaneva sempre una certa insoddisfazione per un modus operandi basato su soluzioni ricavate esclusivamente dai risultati tangibili e per l'impossibilità di un confronto anche teorico.
Non basta capire cosa funziona, è molto più soddisfacente capire perchè funziona

Ora frequento da poco questa community e...scopro che da tempo parlate con entusiasmo proprio di ciò che mi aveva più affascinato del mondo SEO.

Che dire, complimenti e grazie!

paolo

i documenti indicati da claudioweb non sono più scaricabili, qualcuno che li ha gia scaricati potrebbe metterli in linea?

grazie

angelo.ew

confermo anch'io.

Qualcuno li ha a disposizione???

grazie mille

arkanefactors

@claudioweb said:

le tecniche usate sono simili a quelle che fanno funzionare [url=http://20q.net/]questo giochino...
@20Q said:
Stavate pensando ad un telefonino.
Si esibisce in pubblico? Avete detto Non so, Dico Sì.
È infiammabile? Avete detto Non so, Dico No.
È fastidioso? Avete detto A volte, Dico No.
Prende fuoco? Avete detto Non so, Dico No.
Contraddizioni rilevate
*Non importa se le nostre risposte non corrispondono, poiché con il tempo il gioco modificherà le proprie risposte per riflettere la conoscenza comune. Se pensi che il gioco sia in errore, l'unico modo per risolvere il problema è giocare di nuovo. *
@Joshua said:
Strano gioco. L'unico modo per vincere è non giocare.

seogoogle

wow wow wow che post complimenti.
Son dubbioso sulla reazione che dovrei avere:

spararmi in testa
mettermi di buon impegno a studiare..

Ovviamente la seconda ma purtroppo chi di voi è più esperto, e dato che i link di Claudioweb non vanno più, potrbbe dire a noi profanui con lauree (o senza) non matematiche una serie di testi su cui concentrarci.

Fermo restando che nessuno pretende di trovare in un testo la conoscenza di Low, mi piacerebbe avere delle indicazioni più precise su cosa consigliate di leggere. Se è tutto quanto linkato prima...amen, lo leggerò

seogoogle

Vorrei segnalarvi, e spero sia un sunto di quanto indicato dai vari Low, etc..questo documento realizzato dal famoso RandFish di seochat citato all'inizio del thread da Low:

http://www.seomoz.org/articles/google-historical-data-patent.php

é una analisi spiegata del famoso paper di google sull IR.

Magari è utile anche a voi...
Ciao ciao

seogoogle

Segnalo anche questo:

http://nlp.stanford.edu/IR-book/pdf/irbook.pdf

'An introduction to information retrieval'

Introduction mica tanto dato che son 190 e passa pagine...cmq...ed è pure molto recente. Agli esperti il giudizio.

schiappa

Scusate l'ignoranza ma mi sta scoppiando il cervello... sto ancora studiando l'IR ma non riesco a figurarmi la situazione...

Sono confuso credo di essere fuori strada non riesco a figurarmi l'esempio della battaglia navale che ho trovato anche in wikypedia... per navi cosa si intende? quello che digita l'utente o come classifica google le query?

Ragiono male nel pensare che un documento dovrebbe contenere termini che si avvicinano più possibile a quello che potrebbe digitare l'utente??? per esempio "ristrutturazioni" dovrebbe essere contenuto in parti strategiche della pagina come riportato nelle guide.... e magari usare anche sinonimi per espandere la ricerca...
O l'esempio intende creare più documenti che trattano dello stesso argomento racchiusi in una dorectory???

Mah! sono fuori strada rispetto a quello che si è detto fin' ora ???

Potete cortesemente semplificarmi l'esempio della battaglia navale che ho capito ma che non risco a figurarmi con Google... sicuramente sono rincoglionito rispetto ai ragazzini che hanno capito al volo portate pazienza... ()