"Gli è tutto sbagliato, tutto da rifare..." (Bartali)

umor

Ma che poi quello che sta dicendo Low non è mica un concetto tanto nuovo..

http://forum.html.it/forum/showthread.php?threadid=780026

mamilu

Ma che poi quello che sta dicendo Low non è mica un concetto tanto nuovo..
Senza dubbio.
La vera novità è che stavolta lo facciamo per davvero, ed in gruppo

OK, inizio azzardando una interpretazione ed esponendomi subito al pubblico ludibrio:

**Battaglia navale per Motori di Ricerca [ vector model ] **

Immaginiamo una battaglia navale tra un motore di ricerca ed un utente.

Il motore posiziona [o stiva] le sue navi in uno dei sui campi [o database].
Immaginiamo che le sue navi siano le seguenti 7 words:
• *Velocipedi
• marketing
• Equestri
• Forum
• Cavalli
• Biciclette
• Posizionamento *
E che il motore, in quel suo particolare campo decida di posizionarle in questo modo:

Immaginiamo ora che arrivi un utente e lanci le sue bombe [pone una query; Forum per il posizionamento dei velocipedi equestri gialli] e che dette bombe siano le seguenti 5 words
• Forum
• Posizionamento
• velocipedi
• equestri
• gialli

Con la sua query l’utente avrà colpito in A1 – B4 – C3 – C5 [ o meglio, il motore ha avuto le condizioni per rispondere con dati a quelle 4 bombe] ma avrà mancato con la words gialli che il motore non ha posizionato in quel campo.

Guardando il campo del motore, se diamo valore 1 alle words che sono state centrate [offrendo una risposta] e valore 0 a quelle che non l’hanno ottenuta, avremo il seguente vector model - IR:

Velocipedi – marketing – Equestri – Forum – Cavalli – Biciclette – Posizionamento
= 1. 0. 1. 1. 0. 0. 1.

:sto:

graziemamma

La nostra Mamilu

beke

Credo che questo sia uno dei topic più importanti aperti in questo forum e lo è sia per l'argomento introdotto da Low (che peraltro dice queste cose da tempo) sia per la risposta degli utenti che stavolta hanno sentito la "scrollata".

Nel mio piccolo ho iniziato da tempo a seguire i consigli di Low, e mi sono letto con attenzione diversi studi originali, soprattutto dal db della stanford university, dove si trova molto materiale di studenti che, guarda caso, poi sono stati assunti dai vari motori di ricerca.

Per esempio riguardo ai vettori di termini vi potrebbe interessare questo articolo (e soprattutto il documento originale di Bharat):
http://www.posizionamento-web.com/riconoscimento-tema-documenti.asp

Mi dispiace soltanto di essere poco presente sul forum in questi giorni, purtroppo il mestiere di padre si sta dimostrando molto più impegnativo del previsto.

Comunque sia seguirò sicuramente con attenzione l'evolversi di questo thread e di quelli correlati e spero di riuscire a contribuire in qualcosa.

king.hack

Non sono un SEO, ma il post di low mi ha fatto mooolto pensare al fatto che oltre l' ottimizzazione delle keywords, i tag da adottare e le piccole analisi e test che si fanno solitmente come da molte discussioni aperte anche nel forum GT, c'è qualcosa in più, o meglio un punto di vista nuovo rispetto alla visione che si ha ora leggendo i vari post di questo forum: non voglio mettere assolutamente in discussione gli argomenti trattati sul forum GT per l'ottimizzazione nei MdR, ma penso che, come l' ha sottolineato low e lo quoto anche io (da assoluto profano in materia) esiste un punto di vista diverso che può dare la svolta per una comprensione più approfondita sull' argomento SEO e MdR.

Sono dell'idea che comunque la soluzione è davanti ai nostri occhi ma bisogna capire in che posizione mettersi per vederla meglio

Finisco col dire che comincerò a studiacchiarmi anche io tutti i documenti linkati su questo 3d perchè è molto interessante e sono sicuro che darà una svolta al modo di pensare e come comportarsi nei confronti dell' ottimizzazione e dando anche una svolta al forum GT trattando in casa questi argomenti.

Grazie low

Ho avuto il mio primo satori in ambito SEO [/OT]

lowlevel

@Dell'Orto Fabio said:

Citavi sopra del tuo incontro con i due ragazzini... potrebbe essere un "banale" ma utile modo per aprire le menti postarlo qui, non credi ?

Mi piacerebbe riuscire a renderlo chiaro, il problema è che senza un foglio di carta ed una penna (o una lavagna ed un pennarello), è molto difficile spiegare qualcosa di visuale.

Tra l'altro, di visuale non c'è solo la spiegazione ma anche la tecnica per la creazione dei testi ottimizzati che si estrapola dalla teoria.

Alla fine del processo, si estraggono delle regole di massima che permettono di stilare testi che si allontanano il meno possibile dalla query per la quale ci si vuole posizionare.

Impratichendosi nell'applicazione di queste regole, si giunge ad un punto in cui, preso un generico paragrafo di testo, si è in grado di dire se si allontana molto o poco dalla query (rispetto ad altri paragrafi), in base alla quantità di termini diversi che contiene, alle loro ripetizioni e a quanto ciascun termine usato è raro nel corpus (l'intero archivio di documenti del motore).

Dovrei iniziare a descrivere i disegni da fare "disegnate un segmento verticale e dividetelo in cinque parti uguali..." oppure mettermi a disegnare con un software ogni passaggio della spiegazione (al segmento di cui sopra se ne aggiunge un secondo orizzontale, poi un terzo diagonale, ad indicare una terza dimensione, ecc.), ma francamente sarebbe un lavoraccio e in questo periodo sono molto a corto di tempo.

mamilu

giorgiotave

Ciao Low,

ti ringrazio moltissimo per le tue parole, mi hanno davvero colpito.

Ho lasciato scorrere due giorni prima di risponderti perchè non riesco a stardi dietro (Information Retrieval, vector model, Booleano, espansione della query, Hilltop, Topic sensitive pagerank, Latent Semantic Indexing, TrustRank, Thesauri). Ho imparato più ora che negli ultimi dodici mesi.

Abbiamo iniziato studiando molti argomenti, scrivendo articoli e aprendo argomenti per sensibilizzare i SEO.

Stiamo partendo con i nuovi progetti si un semplice motore di ricerca e un robottino semanticamente intelligente.

Dobbiamo studiare e applicarci, altrimenti impariamo poco.

Partiremo anche con altri progetti-gare per studiare e restare aggiornati, volevo ringrarti perchè mi hai dato la possibilità di svegliarmi da questo status-fermo-apprendimento-stagnate per quanto riguarda i motori di ricerca.

Sappi che hai spinto delle persone che stavano tirando, ora son cavoli amari

doopcircus

Davvero interessante questo topic: è da ieri che mi tiro giù e studio testi sull'ir e sto continuando anche in questo momento. L'unica cosa è che molti di quaesti testi passano dal banalissimo all'incomprensibile ( rapporti matematici con sommatorie di logaritmi e costanti dal significatomisterioso).
Ho visto che c'è un'ampia varietà di sistemi usati e molte tecniche citate mi han fatto pensare a Google ma devo dire che purtroppo non ho trovato traccia di alcuni elementi ( come quello dei sinonimi ) che Low ha citato.
Probabilmente sono andato a finire su testi troppo generici o, viceversa, in altri casi, troppo specifici.
Le fonti citate in questo topic me le son già divorate ( almeno i pdf avete qualche altro testo da consigliarmi ?
Grazie!

claudioweb

@doopcircus said:

Le fonti citate in questo topic me le son già divorate ( almeno i pdf avete qualche altro testo da consigliarmi ?
Grazie!
Stavo aspettando per non esagerare a documenti, ma vista la richiesta esplicita.
Subito appena sfornati per te... :

[url=http://www.unibg.it/dati/corsi/9007/9857-1-introduzione.pdf]Introduzione ai sistemi di IR e ai GIS

[url=http://www.unibg.it/dati/corsi/9007/9858-2%20componenti%20di%20un%20sistema%20di%20IR.pdf]Componenti di un sistema di IR

[url=http://www.unibg.it/dati/corsi/9007/9937-3%20indicizzazione.pdf]indicizzazione di documenti testuali

[url=http://www.unibg.it/dati/corsi/9007/9959-4%20strutture%20dati%20per%20indici%20testuali.pdf]strutture dati per indici testuali

[url=http://www.unibg.it/dati/corsi/9007/10089-5-modelli-base%20Booleano%20e%20vettoriale.pdf]modelli di base di sistemi di IR (Booleano e Vettoriale)

[url=http://www.unibg.it/dati/corsi/9007/10162-6-linguaggi%20di%20query%20e%20modello-probabilistico.pdf]linguaggi base di query e algoritmi di valutazione,
modello probabilistico di IR

[url=http://www.unibg.it/dati/corsi/9007/10279-7-modelli%20fuzzy%20Booleani%20estesi.pdf]modello fuzzy Booleano esteso di IR

[url=http://www.unibg.it/dati/corsi/9007/10324-8-modelli%20vettoriali%20estesi.pdf]modelli vettoriali estesi di IR

[url=http://www.unibg.it/dati/corsi/9007/10425-9-meccanismi%20associativi.pdf]meccanismi associativi di retrieval

[url=http://www.unibg.it/dati/corsi/9007/10522-10-espansione%20delle%20query.pdf]metodi di espansione delle query

[url=http://www.unibg.it/dati/corsi/9007/10540-11%20IR%20di%20documenti%20strutturati.pdf]rappresentazione e retrieval di documenti strutturati

[url=http://www.unibg.it/dati/corsi/9007/10613-12-IR%20su%20web.pdf]Information_Retrieval su Web

[url=http://www.unibg.it/dati/corsi/9007/10656-13-valutazione%20di%20sistemi%20di%20IR.pdf]valutazione di sistemi di IR

[url=http://www.unibg.it/dati/corsi/9007/10862-14-modelli%20di%20dati%20spaziali%20nei%20GIS.pdf]Modelli di dati Spaziali nei GIS

[url=http://www.unibg.it/dati/corsi/9007/10971-15-rappresentazione%20di%20dati%20spaziali%20nei%20GIS.pdf]Database geografici e operazioni spaziali

[url=http://www.unibg.it/dati/corsi/9007/11052-16-indici-spaziali.pdf]indici e metodi di accesso per dati spaziali

Non fare indigestione....

stealth

secondo me bisogna dosare le informazioni che stiamo apprendendo.
troppa carne al fuoco....

doopcircus

Si, infatti, ringrazio assai per i link che ho già setacciato in gran velocità, ma vorrei anche un minimo di chiave di lettura: non mi spaventano le informazione, ma la mole è elevata, e io vorrei cercare di fare uno studio Google oriented, cercare di capire veramente come funziona Google aldilà dello stranoto sistema del page ranking.
Comunque grazie mille a Claudioweb per i link: sei una miniera di informazioni !

doopcircus

niente: ho provato e riprovato a trovare un bandolo della matassa ma ancora non son riuscito a trovare in mezzo a quella giungla di appunti e file un testo vagamente divulgativo sui modelli di IR vettoriali, un pò alla stregua di quel che fa questo magnifico sito http://www.iprcom.com/papers/pagerank/ per il pagerank. Se avete consigli e suggerimenti ...
Ormai Low mi ha messo la pulce nell'orecchio e continuo a fissare i miei paragrafi con aria interrogativa cercando di carpirne la relazione geometrica

lowlevel

@doopcircus said:

un testo vagamente divulgativo sui modelli di IR vettoriali

http://www.hray.com/5264/math.htm

http://www.miislita.com/term-vector/term-vector-1.html
http://www.miislita.com/term-vector/term-vector-2.html
http://www.miislita.com/term-vector/term-vector-3.html
http://www.miislita.com/term-vector/term-vector-4.html

doopcircus

Belin, grazie mille low !
Mi ci metto subito, se non ci capisco neanche qui vorrà dire che sono troppo stupido e andrò a restituire la mia laurea in economia

snix

@LowLevel said:

supercut
Non importa se in questo momento non riuscite a comprendere le implicazioni positive e concrete degli studi che vi propongo, voi fatelo! Vi assicuro che via via che imparerete le basi, comprenderete quanto vi stavate limitando (citando Re Artù: "Non sapevo quanto la mia anima fosse vuota finchè non è stata riempita.").

Ho molto poco tempo da dedicare ai forum, ultimamente. Ma se avete qualche domanda da fare, sono a vostra disposizione.

Ottimo Low. Per quanto mi sia avvicinato da poco al settore SEO in modo unicamente amatoriale, sono già molto interessato alle questioni matematiche che hai esposto. Io sono un informatico, programmo e amo la matematica: i requisiti sono ok

Grazie Low.
In ogni caso l'ambito SEO su certi forum sta diventando assai banale; si possono vedere domande del tipo: ma un link a google aumenta il PR?

imparoimparoimparo...

giorgiotave

Piccolo OT che sono l'amministratore può fare

@Snix said:

Ottimo Low. Per quanto mi sia avvicinato da poco al settore SEO in modo unicamente amatoriale, sono già molto interessato alle questioni matematiche che hai esposto. Io sono un informatico, programmo e amo la matematica: i requisiti sono ok

Bene, vedi di dare il tuo contributo, studia studia studia

@Snix said:

Grazie Low.
In ogni caso l'ambito SEO su certi forum sta diventando assai banale; si possono vedere domande del tipo: ma un link a google aumenta il PR?

Non sono le domande che rovinano un Forum,** ma le risposte**

doopcircus

Allora, dopo essermi studiato diligentemente gli appunti suggeriti da Low mi son fatto qualche ideuccia. Posto che sono appunti IR generici e nontengono conto di tutti gli espedienti utilizzati dai vari motori , come il valore di linkaggio in entrata o, nel caso di Google, il Page Rank ( che per certi versi è quasi la stessa cosa ) ...
Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :

wi,j = tfi,j/max tfi,j * log(D/dfi)*

in cui il **primo valore **è la frequenza normalizzata del termine i nel documento j, cioè la quantità di volte in cui un particolare termine è presente rispetto alla quantità di volte in cui è presente il termine più frequente , mentre il secondo è il log della document inverse frequency, vale a dire che più il termine è raro nel totale dei documenti ( e più sono i documenti ) più il peso aumenta. E fin qui ...

Questa formula viene definita come anti-spam grazie alla tecnica di normalizzazione della term frequency.
E qui non capisco tanto: poniamo che io sia uno spammer incallito e che mi sia scelto, per emergere due o tre termini abbastanza specifici, a cui sia associato un log(D/dfi) piuttosto elevato: a quel punto posso fare un bel documento in cui, pari merito o quasi, le tre parole in questione ( magari variate se supponiamo che valga lo stemming ) in misura massiccia in modo da costituire o approssimarsi a maxtfi,j , anche considerando che in teoria un motore evoluto salta a piè pari tutte le stopwords.

Beh, secondo questa formula ( e sempre ignorando link popularity e simili ) il mio documento dovrebbe riscuotere grande successo presso i motori di ricerca ...

Poniamo poi che decidessi di buttarmi su un termine inflazionato, tipo "sex" : qualcosa mi dice che la dfi di quel termine non sia molto elevata ma, d'altra parte, siam tutti nella stessa barca. A quel punto faccio un testo in cui tfij e maxtfij coincidano , dando così un peso massimo rispetto a quella key. Beh, a quel punto, se il modello fosse veramente questo, io spammer non avrei grossi problemi.

Chiaro che una volta che entrano in gioco elementi come link popularity e page rank il mio giochino potrbbe ritorcersi contro di me. Ma allora potrei fare un documento molto corto , tanto si parla di misurazioni relative, un trafiletto di 150 parole a piè di pagine. Poi mi sbatto per fare, che ne so, in flash un bel videogiochino erotico ( ci tengo a dire che non è il mio caso perchè è un campo che non mi interessa, ehm, almeno non in termini di SEO :), è solo la chiave più difficile al mondo ), in modo da essere linkato da qualche bel sitino con PR stratosferico dedicato magari alle risorse free. Beh, sarebbe tutto un pò troppo facile, no ?

Io credo che i modelli reali siano ben più complessi e, beh, low , quando ti va, son pronto per un altra sfliza di appunti

lowlevel

@doopcircus said:

Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :

wi,j = tfi,j/max tfi,j * log(D/dfi)*

doopcircus, la tua analisi è tutta corretta, ma vieni tratto in inganno dalla funzione di quella formula.

Non si tratta di "quello finale". Quella formula determina il peso di un singolo termine all'interno di un documento, non il peso globale di un documento rispetto alla query dell'utente, nemmeno nel caso in cui la query dovesse coincidere con il termine.

Successivamente, l'insieme dei pesi di tutti i termini di un documento stabilisce la posizione di quel documento all'interno di uno spazio multidimensionale.

In fase di ricerca, il motore calcola la "distanza" tra ciascun documento e la query e riporta i risultati in ordine di "distanza" minore (se si escludono gli altri fattori di ranking, ovviamente).

"distanza" è volutamente virgolettato in quanto in realtà si usa una misurazione differente. Ma il concetto generale rimane quello della vicinanza geometrica. Nei testi che ti ho segnalato trovi anche la formula per calcolare tali "distanze".

stealth

è una specie di battaglia navale.
l'insieme dei pesi dei termini di una pagina definisce il peso totale della pagina.
questa viene posta in uno spazio....dipenderà dallarelazione query/termini pagine a definire il risultato.

comunque sia, uno spammer incrementando i valori di ogni parola quindi del documento stesso riuscirebbe a salire sulle serp...saranno gli algoritmi di Pr o di antispam ad abbassare il punteggio della pagina...