Vendita Computer: secondo me ci vuole una Key Density del...

ryan.giggs.79

Un ultimo appunto: questo sistema risente parecchio della terminologia inglese: da quando in qua in Italia "studio" ha a che fare con software?

[url=http://www.google.it/search?hl=it&q=%7Estudio+-studio&meta=lr%3Dlang_it]studio

giorgiotave

@LowLevel said:

In pura teoria potrebbe essere in atto anche l'applicazione di un algoritmo come il Latent Semantic Indexing/Analysys, ma si tratta di una tecnica computazionalmente onerosa e non sono certo che, per il motore, il gioco valga la candela. Diverse tecniche basate sui cluster ottengono risultati analoghi al LSI e sono tecnicamente più abbordabili.

Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.

Oltre a questa tecnica quale altre potrebbe usare?

Voglio capire bene tutti i meccanismi in modo da studiarli e vedere cosa hanno in comune e qual'è quello che potrebbe risultare il migliore.

Il problema è poi capire quale di questi Google potrebbe realmente usare.

@LowLevel said:

Tutto dipende da quale tecnica viene usata dal motore per espandere le query.

Ecco, come detto sopra, dobbiamo anche studiare qualche tecnica il motore potrebbe usare e, una volta conosciute le più popolari, possiamo decidere di fare qualche test.

So bene che è molto probabile che queste tecniche vengano messe in opera per chiavi diverse

mamilu

Per chiavi diverse.

Abbiamo visto Vendita Computer.

E Hotel Roma?
Secondo me ci vuole una Key Density del... almeno 15% perchè altrimenti un motore come fa a capire che stiamo realmente parlando di hotel a Roma di più e meglio del nostro competitor?

Uno ha il suo bel sitozzo di pelletteria e decide di farlo trovare anche con la key Hotel Roma, così becca più clik ;).
E fà [magari con un layer nascosto] una cosa di questo tipo:

Hotel Roma Hotel Roma Hotel Roma Hotel Roma le scarpe e gli stivali e le calzature dello spaccio di borse da ginnastica Della Valle e giubbotti in pelletteria per spacci di giacche e pelletterie per il calzaturificio che crea borsette da calcetto con giubbotto Hotel Roma Hotel Roma Hotel Roma Hotel Roma. Le scarpette da pugilato e l'abbigliamento in stivali di camoscio per scarpe+ giubbini in piumino esposti negli spacci aziendali e forniti di tacchetti e parastinchi come le scarpette da calcio ed i giacconi antivento realizzati dall'industria calzaturiera Hotel Roma Hotel Roma Hotel Roma Hotel Roma
Senonchè, se come utenti cerchiamo un hotel a Roma ed il MDR ci restituisce questa roba ci alteriamo adeguatamente. ()

E allora il MDR prende la richiesta hotel Roma e la espande, aggiungendovi con parametri tutti suoi altri termini correlati, come Giorgio ci ha mostrato su con vendita computer.

~hotel 505.000.000
~hotel -hotel 142.000.000
~hotel -hotel -INN 106.000.000
~hotel -hotel -INN -accommodation 38.400.000
~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.

~Roma 35.800.000
~Roma -Roma non ha prodotto risultati in nessun documento.

In questo caso il MDR dopo aver espanso con canoni suoi la richiesta dell'utente hotel Roma la espande con INN -accommodation -lodging e offre all'utente pagine attinenti a questi argomenti.

La pagina dunque va ottimizzata per la query espansa dal motore, non per la query immessa dall'utente.

Visto poi che se l'utente cerca un Hotel a Roma, molto probabilmente è là che vuole andare e soggiornare, e quindi il MDR cerca di mostrargli pagine che oltre quelle key trattino anche di altri argomenti correlati, come:
roma stradario
nomentana
tuscolana
casilina
tuttocittà
bioparco
ostiense
trastevere
parioli
prenestina
circolo degli artisti
roma+
spinaceto
gianicolo
monte mario
boccea
laurentina
ergife
piazza bologna
ardeatina
montesacro
tuttocitta
strade
garbatella
quartiere esquilino
appia antica
via nazionale
lungotevere
tuscolano
prati fiscali
trigoria
salaria
collatina
stazione birra
nuovo salario
bravetta
villa borghese
villa pamphili
malafede
trionfale
nemorense
dei congressi
ripetta
cola di rienzo
pietralata
gianicolense
tiburtino
casalpalocco
pomezia
selva candida
via cavour
via del corso
anagnina
anello ferroviario
villa glori
cinecittà
valadier
dei gracchi
viale liegi
magliana
castro pretorio
ergife palace
bufalotta
testaccio
baldo degli ubaldi
quirinale
coppedè
ponte milvio
palazzo delle esposizioni
acilia
colosseo
ristorante
porta maggiore
frentani
via pigafetta
giardinetti
camilluccia
mostacciano
fori imperiali
motel
pineta sacchetti
domus aurea
portuense
arco di travertino
croce di malta
american palace
caput mundi
aran park
domus mariae
botteghe oscure
fontanella borghese
labicana
gioberti
giolli
sant anselmo
viminale
ciampino
condotti
arenula
clodio
barberini
galleria borghese
della conciliazione
eur suite
aris garden
aldobrandeschi
visconti palace
frattina
margutta
labaro
calzaiuoli
bonciani
porta rossa
parco tirreno
via veneto
quattro fontane
rome
principessa tea
nord nuova
bernini bristol
royal santina
santa prassede

Sono questi argomenti sviluppati che il MDR cerca nella pagina e nel sito per mostrarle all'utente.
Il MDR usa dei metodi di classificazione dei documenti [come LSI] che calcolano tutti i termini presenti in un documento e ne esaminano la similarità.
E' in grado di rilevare documenti particolarmente rilevanti per una ricerca anche se questi non contengono quella particolare frase.
Misurare la rilevanza è un componente chiave di un algoritmo per l'ordinamento dei risultati di un MDR.
Quando i MDR la usano, la LSI può avere un impatto significativo sulla posizione delle pagine web, perchè se l'utente cerca su un MDR vorrebbe che lui gli mostrasse:

*tutte le pagine che hanno a che fare con la sua ricerca
*non vorrebbe vedere i risultati che non hanno a che fare con la sua chiave.
*si aspetta che i siti che gli appaiono con la sua ricerca siano mostrati in ordine di attinenza

Ma LSI non prevede un abbinamento dei termini. Infatti lui controlla tutto il documento e trova i termini semanticamente più vicini e quelli più distanti basandosi sulle parole presenti su ogni pagina e quelle presenti su tutto il sito.

Questo sta a significare che il SEO deve tenere presente tutte le parole che usa nel proprio sito web.

Ad un MDR che usi questo algoritmo sarebbe importantissimo fargli trovare nel proprio sito web:

*Contenuti validi
*Una buona organizzazione dei contenuti attraverso struttura e link
*Una buona espansione dei termini inseriti nei contenuti che vanno a approfondire tutti i concetti espressi negli stessi

Se non li trova o se ne trova meno [o meno approfonditi] che in altri siti di competitors, c'è poco da aumentare il PR, i BL e la KeyDensity o ... da far macumbe.

E' evidente che se un sito di un Hotel a Roma offre pagine che sviluppano accuratamente ognuno di quegli argomenti, otterrà senza dubbio un forte interesse dai MDR e quindi una ottima posizione nelle Serp, indipendentemente dal suo PR, dai BL e dalla KD.

mizkey

secondo voi l'espansione delle key è stata implementata di recente?

si spiega così perchè anche siti giovani possono stare in cima alle serp...

però ho provato a fare altre ricerche e sembra che questo discorso sia valido soprattutto per key importanti e difficili...

lupolo

Il discorso di Giorgio e Mamilù non fa una piega.

Ho controllato le serp del mio settore es. "vacanza sardegna" purtroppo accade che nelle prime posizioni, a parte alcuni siti anziani, ci sono siti che non fanno altro che ripetere tantissime volte le keywords nell'html, in barba a tutte le espansioni di query.

Se l'utente cerca "residence sardegna" oppure "offerte vacanze sardegna" dovrebbe trovare nel primo caso i residence non l'agriturismo che ha ripetuto tante volte la kw "residence" nel secondo caso dovrebbe trovare i siti che hanno offerte riguardanti le vacanze e non i siti che non hanno nemmeno la pag. delle offerte ma ripetono la kw tantissime volte.

Forse accade come nell'esempio descritto da mamilù sulla kw hotel roma?

Sbaglio?

sole

Complimenti discussione molto interessante.

Spero di aver capito correttamente, la tecnica di GiorgioTave (~key1 -key1) ci permette di capire quali altre key sono strettamente attinenti e quindi da includere nei contenuti, Giusto?

Confermo però come è stato detto che la tecnica è valida per key davvero ompetitive. Le altre non danno risultati. Perchè?

beke

@Giorgiotave said:

Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.
Oltre a questa tecnica quale altre potrebbe usare? Un sistema per l'espansione della query che secondo me ha buone probabilità di essere usato è quello a cui ha già accennato Low e che Bharat ha usato per esempio nel suo algoritmo di Topic Distillation.

Si esegue la query dell'utente e si ordinano i risultati normalmente, dopodichè si assume che i risultati top-ranked siano rilevanti, vuoi per questioni di contenuto che di PR o di Trust.

Si preleva il contenuto dei documenti top-ranked e filtrando i termini non utili (per es. i termini usati troppo spesso nell'intero indice e i termini usati troppo poco) si ottengono i termini con i quali verrà formata la query espansa.

La si esegue ed infine si ordinano i risultati eseguendo il confronto fra i logaritmi dei vettori di termini dei documenti e della query.

Alessandro Sportelli

@Mamilu said:

chiavi diverse.

una domandina: per individuare le keyword delle query espanse si può far riferimento a questo strumento:

https://adwords.google.com/select/keywordsandbox

??

Grazie

lowlevel

@Giorgiotave said:

Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.

Il LSI è un modello vettoriale che può essere usato in modo complementare oppure anche sostitutivo del term vector model.

Facendo test, penso sia possibile individuare nei risultati effetti simili a quelle che produrrebbe l'applicazione del LSI.

Ma sconsiglio di prestarvi attenzione fino a quando non si possieda una ottima comprensione del term vector model e delle sue implicazioni pratiche nell'ottimizzazione delle pagine. Anche perché il LSI è anche più difficile da comprendere.

Oltre a questa tecnica quale altre potrebbe usare?

Clustering, pseudo relevance feedback e dizionario di sinonimi sono le più diffuse.

Voglio capire bene tutti i meccanismi in modo da studiarli e vedere cosa hanno in comune e qual'è quello che potrebbe risultare il migliore.

In questo caso lo studio non basta, perché i risultati migliori si ottengono provando tutte le tecniche e individuando quella che appare la migliore. L'IR è una disciplina più empirica di quello che sipensa: si inizia con un'intuizione o deduzione matematica, ma poi bisogna vedere se i risultati pratici corrispondono a quanto veniva predetto dalla teoria.

Ecco, come detto sopra, dobbiamo anche studiare qualche tecnica il motore potrebbe usare e, una volta conosciute le più popolari, possiamo decidere di fare qualche test.

Vedi sopra: clustering e pseudo relevance feedback.

Vedo bene anche qualche tecnica basata su informazioni antropiche, ma è difficile da testare e comunque gli effetti di un'espanzione attraverso clustering mi sembrano molto più evidenti.

So bene che è molto probabile che queste tecniche vengano messe in opera per chiavi diverse

Anche se l'effetto apparente è quello, è improbabile che esistano algoritmi diversi per query diverse. In un sistema progettato decentemente, l'algoritmo dovrebbe essere unico, con alcune parti/pesi/fattori che si "affievoliscono" automaticamente (fino eventualmente ad avere valenza nulla) a seconda della query.

Si preleva il contenuto dei documenti top-ranked e filtrando i termini non utili (per es. i termini usati troppo spesso nell'intero indice e i termini usati troppo poco) si ottengono i termini con i quali verrà formata la query espansa.

In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.

Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.

beke

In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.
Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.Grazie della precisazione

Io mi riferivo, in effetti a quanto letto in "Improved Algorithms for Topic Distillation in a Hyperlinked Environment", quindi ad un'applicazione leggermente diversa ma che comunque utilizza un sistema di espansione della query:

...matching the query against the document is
usually not sufficient. Instead we use the documents in
the start set to define a broader query and match every
document in the graph against this query. Specifically,
we consider the concatenation of the first 1000 words
from each document to be the query, Q and compute
similarity(Q;D).
In our implementation, since queries are long and the
document vocabulary tends to be varied we use term
frequency weighting. We use cosine normalization in
weighting both the query and the documents since the
deviation in term vector lengths is large. See Salton...

Ed in effetti concatenando prima i termini delle query e calcolando poi il vettore della query risultante dovrei ottenere lo stesso tipo di risultato.

O no?

lowlevel

@beke said:

Ed in effetti concatenando prima i termini delle query e calcolando poi il vettore della query risultante dovrei ottenere lo stesso tipo di risultato.

Un risultato analogo, ma non identico. Le principali differenze sono che

dei documenti vengono presi solo i primi X caratteri mentre un indexer full text generalmente ingoia tutto il testo (tranne le stop word);
ad essere sommati alla query sono i termini, non i vettori dei documenti (anche se poi vengono trasformati in vettori);
il tipo di somma pesata prevede che ai termini della query originaria venga applicato un peso triplo rispetto ai termini estrapolati dai documenti.

Questo approccio è anche computazionalmente più oneroso rispetto alle semplici somme tra vettori compiute da un normale pseudo relevance feedback ed i risultati sono sicuramente diversi, anche se bisognerebbe implementare i due sistemi per misurarne la diversità (che comunque varia anche in funzione del corpus e sicuramente di altri fattori).

dell.orto.fabio

La lista dei termini complementari è sicuramente un valido punto di partenza !!

andrez

Credo che i passaggi importanti di questo concetto siano:

In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.

Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.

Tutto dipende da quale tecnica viene usata dal motore per espandere le query.

Non si conosce quindi *quale *espansione o come il MDR la applichi.

...qui non mi ci ritrovo...a me pare che i termini li SOTTRAGGA dalla ricerca invece di aggiungerli...sbaglio?
e perchè lo fa? se io utente cerco HOTEL ROMA perchè il mdr dovrebbe togliere la key hotel?
Tentando di sviluppare l'esempio dell'espansione della query di mamilu su Hotel Roma;
-" il MDR prende la richiesta hotel Roma e la espande, aggiungendovi con parametri tutti suoi altri termini correlati, come Giorgio ci ha mostrato su con vendita computer.

Cioè il MDR. con tecniche conosciute solo a lui, parte dalla query *hotel * e la espande aggiungendovi termini a sua discrezione.

Facendo il percorso inverso possiamo scoprire questi termini:
Digitiamo **hotel ** e vediamo la risposta di 505 milioni; i termini hotel in neretto... ma anche altri.

E allora togliamo hotel dalla query [-hotel] e scopriamo che anche senza nessun temine hotel il MDR ci restituisce 106 milioni di pagine mostrandoci in neretto INN -accommodation -lodging

E' evidente che quei termini il motore, in quel caso, quel giorno [e chissà cos'altro] considera espansioni della query Hotel

Rifacendo la ricerca togliendo una ad una quelle key, vediamo l'importanza che il MDR ha attribuito ad ogni word che ha inserito nell'espansione della query Hotel

Rileggiamo:

~hotel 505.000.000
~hotel -hotel 142.000.000
~hotel -hotel -INN 106.000.000
~hotel -hotel -INN -accommodation 38.400.000
~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.,

dell.orto.fabio

Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !

Essi teoricamente dovrebbero avere [condizionale d'obbligo] i termini che fanno la differenza...

andrez

Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !

~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.,

Query hotel, il MDR mostra un risultato che include altri termini e togliendoli uno ad uno il risultato è zero, non ne restano lì.

Finchè la serp mostra risultati significa che un ulteriore termine, frutto dell'espansione è presente.

Nella fase intermedia, cioè dopo aver tolto il primo o il secondo dei termini frutto dell'espansione, quella serp limitata non si presta ad analisi di sorta [relativamente all'espansione] in quanto non conosciamo il MDR che tecnica usi per quell'espansione della query.

Ci è però possibile estrapolare quei termini

giorgiotave

@mr yak said:

qui non mi ci ritrovo...a me pare che i termini li SOTTRAGGA dalla ricerca invece di aggiungerli...sbaglio?
e perchè lo fa? se io utente cerco HOTEL ROMA perchè il mdr dovrebbe togliere la key hotel?

Mr Yak,

siamo noi che li sottraiamo alla query per vederli tutti

Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !

Non è limitata, quella è solo l'espansione lato-utente

j0sh

secondo me stiamo parlando di qualcosa di primordiale

come si nota dalla query http://www.google.it/search?q=vendita+computer
rimangono saldamente in alto i siti che almeno hanno le key nel titolo

attualmente i fattori che google valuta sono altri, secondo me, e riguardano il peso che l'algoritmo assegna al sito in generale (per questo è nata la sandbox o filtri simili)

questo dipende dal grosso problema dello spam che google ha dovuto combattere...

ho letto cmq di cambiamenti nel senso di una ricerca semantica... credo che tutti i motori stiano cercando soluzioni per adottare algoritmi su base neurale... in questo caso vedo bene il discorso di giorgio è solo pero' una linea che i mdr stanno seguendo per migliorare le serp

credo anche che sia vero che non è importante la kdensity della pagina in generale quanto quella del sito in generale... nel senso che mi pare che google valuti non più la singola pagina ma tutte le pagine indicizzate di un dominio (in questo senso forse l'espansione potrebbe essere utile)

giorgiotave

@j0sh said:

come si nota dalla query http://www.google.it/search?q=vendita+computer
rimangono saldamente in alto i siti che almeno hanno le key nel titolo

Non mi sembra che tutti e dieci i domini hanno le key nel titolo.

Solo un 60%

vendita computer è diversa da vendita e anche da computer

j0sh

@Giorgiotave said:

Non mi sembra che tutti e dieci i domini hanno le key nel titolo.

Solo un 60%

vendita computer è diversa da vendita e anche da computer

allora non si spiega... secondo la logica dell'espansione... perchè io sia in prima pagina con http://www.google.it/search?q=carnevale+di+venezia (dgmag.it)

giorgiotave

@j0sh said:

allora non si spiega... secondo la logica dell'espansione... perchè io sia in prima pagina con http://www.google.it/search?q=carnevale+di+venezia (dgmag.it)

Hai presentato un articolo che se fosse stato fatto in un sito a tema sarebbe apparso nelle prime tre posizioni.

Io non ci vedo niente di strano

L'espansione della query è uno dei modi di avvicinarci ai motori, ma sono così complicati che ci sono altri mille fattori.

Basare lo studio su uno di essi è folle. L'espansione è molto importante

@ mr yak

Devi mischiare quel sistema ed il sandbox di Google e poi il buon senso.

Devi conosce l'argomento e sapere dove si trova il Colosseo, altrimenti che senso ha?