- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- L'espansione della query
-
Credo che i passaggi importanti di questo concetto siano:
In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.
Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.
Tutto dipende da quale tecnica viene usata dal motore per espandere le query.
Non si conosce quindi *quale *espansione o come il MDR la applichi.
...qui non mi ci ritrovo...a me pare che i termini li SOTTRAGGA dalla ricerca invece di aggiungerli...sbaglio?
e perchè lo fa? se io utente cerco HOTEL ROMA perchè il mdr dovrebbe togliere la key hotel?
Tentando di sviluppare l'esempio dell'espansione della query di mamilu su Hotel Roma;
-" il MDR prende la richiesta hotel Roma e la espande, aggiungendovi con parametri tutti suoi altri termini correlati, come Giorgio ci ha mostrato su con vendita computer.Cioè il MDR. con tecniche conosciute solo a lui, parte dalla query *hotel * e la espande aggiungendovi termini a sua discrezione.
Facendo il percorso inverso possiamo scoprire questi termini:
Digitiamo **hotel ** e vediamo la risposta di 505 milioni; i termini hotel in neretto... ma anche altri.E allora togliamo hotel dalla query [-hotel] e scopriamo che anche senza nessun temine hotel il MDR ci restituisce 106 milioni di pagine mostrandoci in neretto INN -accommodation -lodging
E' evidente che quei termini il motore, in quel caso, quel giorno [e chissà cos'altro] considera espansioni della query Hotel
Rifacendo la ricerca togliendo una ad una quelle key, vediamo l'importanza che il MDR ha attribuito ad ogni word che ha inserito nell'espansione della query Hotel
Rileggiamo:
~hotel 505.000.000
~hotel -hotel 142.000.000
~hotel -hotel -INN 106.000.000
~hotel -hotel -INN -accommodation 38.400.000
~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.,
-
Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !
Essi teoricamente dovrebbero avere [condizionale d'obbligo] i termini che fanno la differenza...
-
Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !
~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.,
Query hotel, il MDR mostra un risultato che include altri termini e togliendoli uno ad uno il risultato è zero, non ne restano lì.
Finchè la serp mostra risultati significa che un ulteriore termine, frutto dell'espansione è presente.
Nella fase intermedia, cioè dopo aver tolto il primo o il secondo dei termini frutto dell'espansione, quella serp limitata non si presta ad analisi di sorta [relativamente all'espansione] in quanto non conosciamo il MDR che tecnica usi per quell'espansione della query.
Ci è però possibile estrapolare quei termini
-
Vorrei chiarire quello che volevo trasmettervi che probabilmente strampalatamente ha creato anziche fare chiarezza molta confusione.
Io mi regolo nel seguente modo...
Poniamo il caso che voglia cercare i termini utilizzati da gg per fare l'espansione della query sulla keyword Paperopoli
Prima escludo tutti i termini che sicuramente, vuoi per conoscenza, vuoi per altri fattori sono certo che gg considera
Paperone
Paperino
Paperina
Banda Bassotti
Qui quo qua
Nonna papera
ArchimedeA questo punto [dando per scontato quanto scritto sopra] , nei siti restanti dovrò cercare quelli che non ho utilizzato ma che GG invece considera ! Se come risultato finale avrò invece 0, teoricamente dovrebbero essere quelli che ho indicato!
Lo so è un ragionimento contorto, però lo ritengo attendibile, non credete ?
-
visto che questa cosa dell'espansione mi incuriosiva e volevo capirci di + (come yak) ho fatto qualche prova..
devo dire che per es con hotel a firenze il discorso riportato da andrea funziona.. si trovano molti termini: inn, accommodation, tourism, lodging, .. prima di arrivare a non ha prodotto risultati in nessun documento
pero' se provo con altre keyword non mi capacito molto di come ragioni...
ad es ho provato con~viaggi -viaggi -voli non ha prodotto risultati in nessun documento
possibile che non aggiunga altri termini rilevanti? che dia per scontato che la parola più legata e significativa per i viaggi siano i voli?
quindi forse un viaggio in nave, treno, pullmann è davvero poco rilevante?e in inglese?
ho provato prima in italiano:
~toscana -toscana -firenze -livorno -lucca -tuscany non ha prodotto risultati in nessun documento (interessante scoprire che lucca e livorno contino più di siena e arezzo!)ma nell'inglese..
~tuscany -tuscany - non ha prodotto risultati in nessun documento.che senso ha?
scusami giorgio se le mie domande ti possono sembrare fuori luogo. ho capito a livello teorico il ragionamento semantico.. ma nel pratico ho ancora difficoltà
-
Vorrei poter scrivere molto di più sull'argomento, ma il tempo è tiranno.
Risposta lampo: non confondete l'espansione esplicita (quella che l'utente chiede con l'operatore "~") con l'espansione implicita, operata da Google per conto suo, a monte.
L'operatore "~" non può fornire indicazioni precise su quali termini Google utilizza per espandere implicitamente una query.
Google espande le query per conto suo, con termini che sa solo lui.
L'operatore "~" è tutta un'altra storia. E' comunque sfruttabile per capire qualcosa in più, ma non sufficiente per sapere quali termini Google realmente usa per espandere le query.
-
@nelli said:
ho provato prima in italiano:
~toscana -toscana -firenze -livorno -lucca -tuscany non ha prodotto risultati in nessun documento (interessante scoprire che lucca e livorno contino più di siena e arezzo!)ma nell'inglese..
~tuscany -tuscany - non ha prodotto risultati in nessun documento.che senso ha?
Difficile dirlo.
Certo è, come ha detto Low, che questo è un'altro dei casi in cui si rischia di fare confusione fra quello che il motore di ricerca evidenzia nei risultati e quello che usa per ordinarli.Il fatto di evidenziare alcune parole nelle pagine dei risultati della query con la tilde (quello che Low chiama "espansione esplicita") può essere semplicemente frutto di studi di usabilità o chissà che altro ed usare criteri anche molto diversi da una espansione della query effettuata a monte (e a noi non visibile, "implicita" quindi) ed usata per la selezione e/o l'ordinamento dei documenti.
Quest'ultima può essere effettuata in più di un modo, per esempio (e molto a grandi linee, perchè meglio non so fare :D):
Pseudo feedback - aggiungendo alla query originale parte del contenuto dei documenti "top ranked" (ritenuti attinenti e quindi contenenti termini correlati) e poi ordinando nuovamente i risultati.
Co-occorrenza delle keywords - Valutando quali siano nell'intero indice del motore i termini significativi che più frequentemente coesistono con la query.
Oppure utilizzando sistemi complessi che valutano relazioni semantiche, non dimentichiamoci che Adsense usa un sistema del genere, sviluppato da Applied Semantics, acquistata all'uopo da Google.
Esistono anche sistemi probabilistici e probabilmente molto altro, ma sono sicuro che appena avrà un pò di tempo Low scriverà uno dei suoi post imperdibili a riguardo
-
Scusate, sono un po' confuso:
[url=http://www.google.it/search?q=vendita]vendita: 35.100.000 risultati
[url=http://www.google.it/search?q=%7Evendita]~vendita: 16.800.000 risultati
[url=http://www.google.it/search?q=%7Evendita+-vendita]~vendita -vendita: 3.760.000 risultatiQuello che non capisco è come mai la seconda query (quella con la tilde) restituisce un insieme di risultati più limitato della prima.
Non è per caso che stiamo dando per scontato qualcosa che in realtà non lo è (l'attendibilità di questi risultati, per esempio)?
Aggiungo un'altra considerazione: l'operatore tilde è utile in effetti per vedere quali sono i termini che Google considera sinonimi di una determinata keyword, e ottimizzare il proprio sito di conseguenza. Però non dobbiamo dimenticarci che sono le prime tre pagine di risultati quelle che contano (ossia quelle che vengono effettivamente consultate e cliccate dagli utenti), perciò se la keyword strategica nel nostro mercato è "pippo", difficilmente potremo salire nella top-10 (o nella top-30) ottimizzando per "pippe".
Battute a parte, il mio ragionamento fila, spero?
-
Quello che non capisco è come mai la seconda query...
...perchè non hai letto il thread del tutto
Tenta, e vedrai che capirai immediatamente.
-
@Mamilu said:
...perchè non hai letto il thread del tutto
Tenta, e vedrai che capirai immediatamente.
OK, credo di aver afferrato il concetto fondamentale: l'insieme di risultati per la query espansa da Google ([url=http://www.google.it/search?q=vendita]vendita) è più esteso di quello per la query espansa dall'utente ([url=http://www.google.it/search?q=%7Evendita]~vendita) perché l'espansione implicita e quella esplicita in realtà fanno riferimento a due algoritmi distinti e scorrelati.
Ero stato indotto a conclusioni erronee dall'esempio contenuto nel post iniziale di GT, quello con la query [url=http://www.google.it/search?q=computer]computer, per la quale l'operatore tilde produce un'espansione del set di risultati, e non un restringimento come in questo caso.
Perciò, a questo punto, credo di concordare al 100% con quanto scrive LowLevel:
@LowLevel said:
L'operatore "~" non può fornire indicazioni precise su quali termini Google utilizza per espandere implicitamente una query.
Google espande le query per conto suo, con termini che sa solo lui.
L'operatore "~" è tutta un'altra storia. E' comunque sfruttabile per capire qualcosa in più, ma non sufficiente per sapere quali termini Google realmente usa per espandere le query.
Sono però anche d'accordo con GT sul fatto che l'espansione esplicita della query sia utile per ampliare il "tema" del sito con sinonimi e parole correlate (come quelle restituite da un thesaurus).
Questo può --sottolineo può-- produrre due effetti positivi, secondo me:
- migliorare leggermente il posizionamento del sito nel caso il motore di ricerca utilizzi algoritmi di tipo semantico (che prendano cioè in considerazione il tema del sito) in fase di ranking, soprattutto per query molto generiche;
- aiutarci a posizionare il sito per la "coda lunga" di keyphrase meno competitive (ma potenzialmente altrettanto importanti per numero complessivo di ricerche) costituita da sinonimi e parole correlate.
Quello che non può aiutarci a fare, sempre secondo me, è migliorare drammaticamente il posizionamento per parole chiave molto competitive (prontissimo ad essere smentito su questo punto). Insomma, ribadisco il concetto del mio post precedente: l'obiettivo è quello di figurare nei primi 10/20/30 risultati, non nei primi 30.000.000 (e l'operatore tilde temo lo utilizzino solo i SEO e pochi altri).
Siete d'accordo con questa interpretazione?
-
Mi sembra di non aver compreso bene, dalla tua descrizione, l'uso dell'operatore tilde che intendi fare
-
@Mamilu said:
Mi sembra di non aver compreso bene, dalla tua descrizione, l'uso dell'operatore tilde che intendi fare
Compilare una lista di keyword correlate per rafforzare e/o espandere il "tema" del sito (scusa, pensavo si capisse dal post, ma forse sono andato un po' di fretta).
<added>Non mi avete detto cosa pensate della mia analisi. Se ho scritto delle ca%%ate ditemelo pure, non mi offendo mica. Anzi. ;)</added>
-
Non mi avete detto cosa pensate della mia analisi.
Senza dubbio interessante.
Credo che l'operatore tilde abbia diverse funzioni e la tua analisi spazia dal concetto iniziale di Giorgio, anche se restando in tema.
Col giochetto di togliere con la ~ le key cercate da una serp importante e vedere a quali termini in sequenza il MDR continua a dare rilievo, si intendeva cercare di portare il livello medio dei forumisti a valutare relativamente al posizionamento aspetti diversi dalla key density, dal PR, dai bold ecc.
Anche il tono del titolo, oltre a qualche battuta, è scherzoso, quasi provocatorio.
Tuttavia lo sviluppo che è stato dato al thread mi sembra in tema ed adeguato, quindi bene così.
-
@alex2k said:
una domandina: per individuare le keyword delle query espanse si può far riferimento a questo strumento:
https://adwords.google.com/select/keywordsandbox
??
Grazie
Alex2k ha fatto una domanda-considerazione molto interessante a cui non è stata data risposta. Il tool di google dovrebbe costituire, a logica, la risposta lato motore all'espansione della query, sempre che i dati forniti siano completi e rilevanti. L'operatore ~ può fornire spunti relativi alla documentazione esistente, e non a quella potenzialmente sviluppabile che il motore cerca di prevedere con i suoi mezzi che non ci sono noti (e qui si spiegano quei casi in cui l'operatoere ~ fornisce dati numericamente inferiori alla ricerca pura).
IMHO penso che quel tool sia molto molto significativo e che intersecato con i tool di overture, wordtracker miva, e naturalmente con tutto il discorso sull' espansione della query lato utente, possa fare la differenza a livello di ottimizzazione. Miglioramenti ancora più accentuati si avrebbero sviluppando questo concetto in maniera ricorsiva: prendo come termine radice tutti i termini che sto considerando
Non sono d'accordo che questo sistema possa dare solo scampoli di miglioramento, visto che i tre macrofattori su cui i motori si concentrano sono contenuti, link popularity ed anzianità del sito(penso del resto ques'ultimo in misura minore).
Da tutto questo discorso si può trarre, e la sto traendo in questo momento :), una considerazione altrettanto interessante.
L'operatore ~, in definitiva, è un eccellente strumento con cui il motore, implicitamente, suggerisce quei campi in cui c'è ancora "molto da scrivere" (almeno secondo il motore stesso) vale a dire quei casi in cui l'operatore ~ restituisce meno risultati rispetto alla ricerca pura, e quindi, a parità di altri fattori, quei campi che sono più facilmente attaccabili per "l'operazione posizionamento sui motori di ricerca".
-
Ho letto da cima a fondo questo thread e mi diverte pensare una cosa.
Se tentassi di riassumere tutto in una riga, il risultato sarebbe: content is king. Volendo dare una spiegazione leggermente più lunga, direi: se vuoi posizionare per una parola, scrivi quello che sai sulla stessa e sulle altre che sono collegate.
Prossimo step. Quali sono quelle collegate? Semplice. Quelle che la gente usa.
Prossimo step ancora. Quali sono quelle più collegate e quelle meno? Semplicissimo. Quelle che la gente usa di più vs. quelle che la gente usa di meno.
Perché mi viene da ridere? Perché qualcuno lo diceva 5 anni fa...
Bella questa discussione. Mi registro per seguirla Chissà che non arrivi la risposta scientifica a qualcosa che alcuni credono da molto.
-
Intervengo facendo notare una differenza importante.
Per abitudine si tende a discutere di alcuni argomenti come se il "mondo web" affrontato dai motori fosse uno.
Sappiamo che e' molto diversificato, ma non si puo' certo prendere in analisi ogni aspetto, ogni tema, sappiamo che il mondo adult e' trattato separatamente dagli altri, che i blog non sono siti di commercio elettronico e via discorrendo.
Tuttavia si cerca giustamente di trovere dei minimi comuni denominatori.
Tuttavia pur non potendo omogenizzare tutto si puo' inizialmente suddividere il mondo web-motori in 2 grosse sottocategorie.
Siti seri e spam.
Poi ad ognuna di queste 2 sottocategorie potremo inserire cosa e chi ci pare, adult, ecommerce, blog, siti free...
Si puo' spammare su un ecommerce come si puo' fare un sito serio per adulti.
Questa cosa i motori lo sanno benissimo, pertanto prima ancora di stabilire se un sito sia commerciale dinamico o un forum tematico, si chiedono: e' spam o no?
Premesso questo torniamo al topic.
Sono un sostenitore che un buon contenuto (soprattutto se originale) rivesta un peso elevatissimo ai fini delle scalate delle serp.
Fradefra lo diceva gia' 5 anni fa, in tempi non sospetti, e credo che oggi ne siamo tutti convinti: buon testo = buona posizione.
Tuttavia, e' c'e' un pero', cosa vale per i siti seri spessissimo non conta per chi fa spam.
Perche' le 2 sottocategorie sono in antitesi. Ed in antitesi sono i sistemi per fare bene le une e le altre.
Riempire di sinonimi e contrari, di parole correlate ecc ecc i siti di spam e' la morte certa prematura del sito stesso.
Nello spam bisogna operare in modo differente, strare bassi, quasi introvabili se non per query di key di 3 o 4 o 5 parole o anche piu'.
Se la key vendita computer ha in una pagina una media densita' allora la si dovra' abbassare al limite minimo, magai 1 o 2 volte max in tutta la pagina.
Intanto se anche si apparisse in serp tra i primi per vendita computer, tempo 0 ci bannerrebbero manualmente...
Pertanto dovremo essere trovati per query tipo: vendita computer usato Dell in romagna
I siti seri si beccano tutto il mercato delle key di 1, 2, (3) parole e lo spam quello di (3), 4, 5.
Cosi' facendo i motori hanno imposto una pacifica convivenza tra le 2 sottocategorie.
I siti seri con buoni contenuti manuali ed ottimizzati, i siti di spam con contenuti artificiali e deottimizzati.
E' incredibile, ogni tanto mi imbatto in doorway fatte da seo che normalmente trattano siti seri, magari messe in una sottodir del sito serio stesso. Ottimizzate e gestite esattamente come la parte seria del sito.
Poco dopo ripasso e noto che sono scomparse dai motori doorway e sito serio...
I migliori (e piu' ricchi) seo al mondo sono invece quelli che sanno assumere una doppia personalita'.
Ottimizzano il sito serio benissimo e poi creano 100 siti di spam deottimizzati che redirigono verso il loro sito serio.
Ottimizzare lo spam e/o non ottimizzare i siti seri produce lo stesso risultato, il nulla.
-
@agoago said:
I siti seri si beccano tutto il mercato delle key di 1, 2, (3) parole e lo spam quello di (3), 4, 5.
Cosi' facendo i motori hanno imposto una pacifica convivenza tra le 2 sottocategorie.
Mi sembra una visione semplicistica o quantomeno riduttiva, perché se da un lato vedo spamengine piazzati benissimo anche per keyphrase molto brevi, generiche e ultra-competitive, dall'altro lato (per fortuna) vedo anche siti seri, content-rich e ben ottimizzati, posizionarsi molto in alto per una "coda lunga" di keyphrase più specifiche e meno competitive, ma cumulativamente altrettanto rilevanti.
-
ArkaneFactors scrive:
"Mi sembra una visione semplicistica o quantomeno riduttiva, perché se da un lato vedo spamengine piazzati benissimo anche per keyphrase molto brevi, generiche e ultra-competitive,..."
Le vedi e poi le vedi scomparire tempo qualche mese, fuochi di paglia. Mi riferivo a quei siti di spam che fanno vitaliazio, un 100 accessi al giorno ma per anni.
"dall'altro lato (per fortuna) vedo anche siti seri, content-rich e ben ottimizzati, posizionarsi molto in alto per una "coda lunga" di keyphrase più specifiche e meno competitive, ma cumulativamente altrettanto rilevanti."
Ovvio, ma e' una questione di percentuale. Man mano che metti nelle query piu' parole i siti pacco tendono a salire ed i siti seri a scendere.
Una semplicistica analisi del rapporto di presenza.
-
@agoago said:
Le vedi e poi le vedi scomparire tempo qualche mese, fuochi di paglia.
Eh, magari. Ci sono degli spamengine che sono molto ben piantati in alcune SERP. E non parlo di query come "vendita viagra online offerta speciale sconto superbazza".Ovvio, ma e' una questione di percentuale. Man mano che metti nelle query piu' parole i siti pacco tendono a salire ed i siti seri a scendere.
Dipende.
Scusami, davvero, ma è una generalizzazione che non mi sento di condividere.
-
@fradefra said:
Ho letto da cima a fondo questo thread e mi diverte pensare una cosa.
Se tentassi di riassumere tutto in una riga, il risultato sarebbe: content is king. Volendo dare una spiegazione leggermente più lunga, direi: se vuoi posizionare per una parola, scrivi quello che sai sulla stessa e sulle altre che sono collegate.
Prossimo step. Quali sono quelle collegate? Semplice. Quelle che la gente usa.
Prossimo step ancora. Quali sono quelle più collegate e quelle meno? Semplicissimo. Quelle che la gente usa di più vs. quelle che la gente usa di meno.
Perché mi viene da ridere? Perché qualcuno lo diceva 5 anni fa...
Bella questa discussione. Mi registro per seguirla Chissà che non arrivi la risposta scientifica a qualcosa che alcuni credono da molto.
Capito solo ora su questa discussione (ti chiedo scusa, Giorgio ) in quanto stavo provando ad indirizzare una discussione su html.it proprio su questo argomento.
Non posso che sottolineare, firmare e controfirmare quanto espresso dal mio carissimo Fradefra.
Quando ho iniziato, quasi 6 anni fa, ad occuparmi di strategie di marketing per il mercato internet - e quindi anche di search engine marketing - due perfetti sconosciuti, tali Ettore e Francesco, mi dissero: "studiati bene l'HTML e pensa a scrivere della pagine che abbiano contenuti inediti e che esauriscano l'informazione su un determinato argomento." In pratica, già 5 anni fa, in una delle più belle telefonate professionali con uno dei due perfetti sconosciuti, parlavamo di "tema del sito web" e di contenuti. "I contenuti sono Re..." mi disse.
Ora, dopo anni di studio e esperienza, grazie anche all'ingresso nella mia azienda di un esperto di IR, LSI e accidenti vari, abbiamo semplicemente dato una risposta più tecnica a quelle parole dei due perfetti sconosciuti.
In topic, il ragionamento di agoago credo di poterlo condividere in pieno. Sono - e sarò - sempre dell'idea che esistano condizioni mutevoli nella Serp dipendenti - soprattutto - dal settore a cui afferisce quel set di chiavi.
Quale sia il metodo di espansione della query adottato da Google non lo so... posso solo immaginarlo e la mia idea rispecchia le deduzioni di Low.
Stiamo preparando un rapporto su uno studio condotto dal mio socio - quello esperto - sul Vector Space Model, l'IR e l' LSI. Giorgio, appena pronto te lo affido in esclusiva
Saluti al forum