• Community Manager

    L'espansione della query

    Vendita Computer: quale Key Density?

    almeno 8% perchè altrimenti un motore come fa a capire che stiamo realmente parlando di quell'argomento? ()

    Ragazzi, la Key Density non è un fattore che ora è usato da Google e non lo è mai stato, non sono queste le cose importanti per il posizionamento.

    Ma che cosa è importante per Google?

    Per un motore di ricerca è importante non far ridere l'utente quanto fa una richiesta, ma fornirgli una risposta molto valida.

    Che cosa cerca l'utente quando inserisce nella barra delle ricerche la chiave "Vendita Computer"?

    Ecco, da quella domanda lì Google potrebbe effettuare due mosse "particolari":

    • espandere la query automaticamente
    • ricercare nel sito alcune informazioni particolari dopo che la query è stata espansa

    Espansione della query Vendita Computer

    Articolo su WikiGT: espansione della query

    Per raffinare una ricerca i motori di ricerca aggiungono dei termini a quelli inseriti dall'utente usando i Thesauri (parole con significati simili).

    Ora possiamo esaminare come noi utenti possiamo interagire con Google e controllare la "nostra" espansione della query.

    Attenzione, Google espande la query in un altro modo a me sconosciuto, non ho altre informazioni a riguardo se non questo post

    Quindi analizziamo la query Computer, cercando ~computer

    Vi ricordo che la query Computer offre 1.590.000.000

    Ricerca di ~computer: 2.550.000.000

    Questo tipo di ricerca mostra quasi 1.000.000.000 di risultati in più, è un'espansione di query esplicita.

    Se ora interagiamo con la query eliminando il termine computer, la ricerca ci mostra i risultati senza quel termine

    Ricerca ~computer -computer 692.000.000 di risultati

    Il primo termine che risalta è pc, proviamo a togliere anche quello

    Ricerca ~computer -computer -pc 419.000.000 risultati

    Eliminiamo hardware

    Ricerca ~computer -computer -pc -hardware: 225.000.000 risultati

    Eliminiamo computing

    Ricerca~computer -computer -pc -hardware -computing 30.100.000 risultati

    Eliminiamo laptop

    Ricerca ~computer -computer -pc -hardware -computing -laptop 8.090.000 risultati

    Eliminiamo computerized

    Ricerca ~computer -computer -pc -hardware -computing -laptop -computerized 0 risultati

    Stessa cosa con la chiave vendita

    Ricerca ~vendita -vendita 2.410.000 risultati

    Ricerca ~vendita -vendita -negozio 0 risultati

    Questo è quello che Google ci vuole mostrare, noi possiamo vedere per quali termini può avvenire un'espansione esplicita.

    Ancora a credere al PageRank e alla Key Density?

    Ricercare nel sito alcune informazioni particolari dopo che la query è stata espansa

    Dopo che la chiave è stata espansa ecco che il motore può capire meglio cosa l'utente vuole e quindi che informazioni cercare nel sito.

    Chi cerca vendita computer molto probabilmente vuole comprarlo, quindi Google è molto interessato a mostrare pagine, sezioni che non siano solo ottimizzate per quella chiave, ma che trattino anche i seguenti temi:

    prezzi dei computer
    carrello
    informazioni sui pagamenti
    sede del sito
    portatili
    vendita
    ingrosso
    listino
    prezzi
    usato
    portatile
    acquisto
    prezzo
    componenti
    grossisti
    assistenza
    listini
    vendesi
    assemblaggio
    offerta
    processori
    vendite
    occasione
    accessori
    rivenditori
    negozio
    aste online
    negozi
    schede madri
    secondamano
    on line
    ricambi
    mercatino
    confronta
    assemblato
    periferiche
    grossista

    Se non fornite all'utente queste informazioni, perchè io motore di ricerca mi devo mettere a controllare la vostra Key Density, il vostro PageRank, i vostri Link, i vostri Title, i vostri H1? (lasciando stare che la Key Density non ve la controllo neanche ():x)

    Fornire queste informazioni basilari permetterà ai vostri siti di fare un bellissimo salto di qualità nelle serp di Google 😉

    Giorgio


  • Super User

    @Giorgiotave said:

    Attenzione, Google espande la query in un altro modo a me sconosciuto, non ho altre informazioni a riguardo se non questo [url=http://www.giorgiotave.it/forum/viewtopic.php?p=32053#32053]post

    L'espansione implicita delle query, usata spessissimo, può essere ottenuta in diversi modi.

    Non ho fatto test specifici su Google e pertanto non sono in grado di affermare che tipo si espansione utilizzi, ma limitandomi ad osservare il suo comportamento, potrebbe trattarsi di una espansione basata sulla co-occorrenza dei termini su tutto il corpus o sul sotto-insieme dei documenti rilevanti per la query originaria (quella non espansa).

    In pura teoria potrebbe essere in atto anche l'applicazione di un algoritmo come il Latent Semantic Indexing/Analysys, ma si tratta di una tecnica computazionalmente onerosa e non sono certo che, per il motore, il gioco valga la candela. Diverse tecniche basate sui cluster ottengono risultati analoghi al LSI e sono tecnicamente più abbordabili.


  • Community Manager

    @LowLevel said:

    In pura teoria potrebbe essere in atto anche l'applicazione di un algoritmo come il Latent Semantic Indexing/Analysys, ma si tratta di una tecnica computazionalmente onerosa e non sono certo che, per il motore, il gioco valga la candela. Diverse tecniche basate sui cluster ottengono risultati analoghi al LSI e sono tecnicamente più abbordabili.

    Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.

    Oltre a questa tecnica quale altre potrebbe usare?

    Voglio capire bene tutti i meccanismi in modo da studiarli e vedere cosa hanno in comune e qual'è quello che potrebbe risultare il migliore.

    Il problema è poi capire quale di questi Google potrebbe realmente usare.

    @LowLevel said:

    Tutto dipende da quale tecnica viene usata dal motore per espandere le query.

    Ecco, come detto sopra, dobbiamo anche studiare qualche tecnica il motore potrebbe usare e, una volta conosciute le più popolari, possiamo decidere di fare qualche test.

    So bene che è molto probabile che queste tecniche vengano messe in opera per chiavi diverse 🙂


  • Super User

    Per chiavi diverse.

    Abbiamo visto Vendita Computer.

    E Hotel Roma?
    Secondo me ci vuole una Key Density del... almeno 15% perchè altrimenti un motore come fa a capire che stiamo realmente parlando di hotel a Roma di più e meglio del nostro competitor?

    Uno ha il suo bel sitozzo di pelletteria e decide di farlo trovare anche con la key Hotel Roma, così becca più clik ;).
    E fà [magari con un layer nascosto] una cosa di questo tipo:

    Hotel Roma Hotel Roma Hotel Roma Hotel Roma le scarpe e gli stivali e le calzature dello spaccio di borse da ginnastica Della Valle e giubbotti in pelletteria per spacci di giacche e pelletterie per il calzaturificio che crea borsette da calcetto con giubbotto Hotel Roma Hotel Roma Hotel Roma Hotel Roma. Le scarpette da pugilato e l'abbigliamento in stivali di camoscio per scarpe+ giubbini in piumino esposti negli spacci aziendali e forniti di tacchetti e parastinchi come le scarpette da calcio ed i giacconi antivento realizzati dall'industria calzaturiera Hotel Roma Hotel Roma Hotel Roma Hotel Roma
    Senonchè, se come utenti cerchiamo un hotel a Roma ed il MDR ci restituisce questa roba ci alteriamo adeguatamente. ()

    E allora il MDR prende la richiesta hotel Roma e la espande, aggiungendovi con parametri tutti suoi altri termini correlati, come Giorgio ci ha mostrato su con vendita computer.

    ~hotel 505.000.000
    ~hotel -hotel 142.000.000
    ~hotel -hotel -INN 106.000.000
    ~hotel -hotel -INN -accommodation 38.400.000
    ~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.

    ~Roma 35.800.000
    ~Roma -Roma non ha prodotto risultati in nessun documento.

    In questo caso il MDR dopo aver espanso con canoni suoi la richiesta dell'utente hotel Roma la espande con INN -accommodation -lodging e offre all'utente pagine attinenti a questi argomenti.

    La pagina dunque va ottimizzata per la query espansa dal motore, non per la query immessa dall'utente.

    Visto poi che se l'utente cerca un Hotel a Roma, molto probabilmente è là che vuole andare e soggiornare, e quindi il MDR cerca di mostrargli pagine che oltre quelle key trattino anche di altri argomenti correlati, come:
    roma stradario
    nomentana
    tuscolana
    casilina
    tuttocittà
    bioparco
    ostiense
    trastevere
    parioli
    prenestina
    circolo degli artisti
    roma+
    spinaceto
    gianicolo
    monte mario
    boccea
    laurentina
    ergife
    piazza bologna
    ardeatina
    montesacro
    tuttocitta
    strade
    garbatella
    quartiere esquilino
    appia antica
    via nazionale
    lungotevere
    tuscolano
    prati fiscali
    trigoria
    salaria
    collatina
    stazione birra
    nuovo salario
    bravetta
    villa borghese
    villa pamphili
    malafede
    trionfale
    nemorense
    dei congressi
    ripetta
    cola di rienzo
    pietralata
    gianicolense
    tiburtino
    casalpalocco
    pomezia
    selva candida
    via cavour
    via del corso
    anagnina
    anello ferroviario
    villa glori
    cinecittà
    valadier
    dei gracchi
    viale liegi
    magliana
    castro pretorio
    ergife palace
    bufalotta
    testaccio
    baldo degli ubaldi
    quirinale
    coppedè
    ponte milvio
    palazzo delle esposizioni
    acilia
    colosseo
    ristorante
    porta maggiore
    frentani
    via pigafetta
    giardinetti
    camilluccia
    mostacciano
    fori imperiali
    motel
    pineta sacchetti
    domus aurea
    portuense
    arco di travertino
    croce di malta
    american palace
    caput mundi
    aran park
    domus mariae
    botteghe oscure
    fontanella borghese
    labicana
    gioberti
    giolli
    sant anselmo
    viminale
    ciampino
    condotti
    arenula
    clodio
    barberini
    galleria borghese
    della conciliazione
    eur suite
    aris garden
    aldobrandeschi
    visconti palace
    frattina
    margutta
    labaro
    calzaiuoli
    bonciani
    porta rossa
    parco tirreno
    via veneto
    quattro fontane
    rome
    principessa tea
    nord nuova
    bernini bristol
    royal santina
    santa prassede

    Sono questi argomenti sviluppati che il MDR cerca nella pagina e nel sito per mostrarle all'utente.
    Il MDR usa dei metodi di classificazione dei documenti [come LSI] che calcolano tutti i termini presenti in un documento e ne esaminano la similarità.
    E' in grado di rilevare documenti particolarmente rilevanti per una ricerca anche se questi non contengono quella particolare frase.
    Misurare la rilevanza è un componente chiave di un algoritmo per l'ordinamento dei risultati di un MDR.
    Quando i MDR la usano, la LSI può avere un impatto significativo sulla posizione delle pagine web, perchè se l'utente cerca su un MDR vorrebbe che lui gli mostrasse:

    *tutte le pagine che hanno a che fare con la sua ricerca
    *non vorrebbe vedere i risultati che non hanno a che fare con la sua chiave.
    *si aspetta che i siti che gli appaiono con la sua ricerca siano mostrati in ordine di attinenza

    Ma LSI non prevede un abbinamento dei termini. Infatti lui controlla tutto il documento e trova i termini semanticamente più vicini e quelli più distanti basandosi sulle parole presenti su ogni pagina e quelle presenti su tutto il sito.

    Questo sta a significare che il SEO deve tenere presente tutte le parole che usa nel proprio sito web.

    Ad un MDR che usi questo algoritmo sarebbe importantissimo fargli trovare nel proprio sito web:

    *Contenuti validi
    *Una buona organizzazione dei contenuti attraverso struttura e link
    *Una buona espansione dei termini inseriti nei contenuti che vanno a approfondire tutti i concetti espressi negli stessi

    Se non li trova o se ne trova meno [o meno approfonditi] che in altri siti di competitors, c'è poco da aumentare il PR, i BL e la KeyDensity o ... da far macumbe. 🙂

    E' evidente che se un sito di un Hotel a Roma offre pagine che sviluppano accuratamente ognuno di quegli argomenti, otterrà senza dubbio un forte interesse dai MDR e quindi una ottima posizione nelle Serp, indipendentemente dal suo PR, dai BL e dalla KD.

    :ciauz:


  • Super User

    @Giorgiotave said:

    Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.
    Oltre a questa tecnica quale altre potrebbe usare? Un sistema per l'espansione della query che secondo me ha buone probabilità di essere usato è quello a cui ha già accennato Low e che Bharat ha usato per esempio nel suo algoritmo di Topic Distillation.

    Si esegue la query dell'utente e si ordinano i risultati normalmente, dopodichè si assume che i risultati top-ranked siano rilevanti, vuoi per questioni di contenuto che di PR o di Trust.

    Si preleva il contenuto dei documenti top-ranked e filtrando i termini non utili (per es. i termini usati troppo spesso nell'intero indice e i termini usati troppo poco) si ottengono i termini con i quali verrà formata la query espansa.

    La si esegue ed infine si ordinano i risultati eseguendo il confronto fra i logaritmi dei vettori di termini dei documenti e della query.


  • Super User

    @Mamilu said:

    chiavi diverse.

    una domandina: per individuare le keyword delle query espanse si può far riferimento a questo strumento:

    https://adwords.google.com/select/keywordsandbox

    ??

    Grazie 🙂


  • Super User

    @Giorgiotave said:

    Quindi in pura teoria lui potrebbe andare a visionare tutti i documenti presenti nel suo database e confrontarli con il LSI.

    Il LSI è un modello vettoriale che può essere usato in modo complementare oppure anche sostitutivo del term vector model.

    Facendo test, penso sia possibile individuare nei risultati effetti simili a quelle che produrrebbe l'applicazione del LSI.

    Ma sconsiglio di prestarvi attenzione fino a quando non si possieda una ottima comprensione del term vector model e delle sue implicazioni pratiche nell'ottimizzazione delle pagine. Anche perché il LSI è anche più difficile da comprendere.

    Oltre a questa tecnica quale altre potrebbe usare?

    Clustering, pseudo relevance feedback e dizionario di sinonimi sono le più diffuse.

    Voglio capire bene tutti i meccanismi in modo da studiarli e vedere cosa hanno in comune e qual'è quello che potrebbe risultare il migliore.

    In questo caso lo studio non basta, perché i risultati migliori si ottengono provando tutte le tecniche e individuando quella che appare la migliore. L'IR è una disciplina più empirica di quello che sipensa: si inizia con un'intuizione o deduzione matematica, ma poi bisogna vedere se i risultati pratici corrispondono a quanto veniva predetto dalla teoria.

    Ecco, come detto sopra, dobbiamo anche studiare qualche tecnica il motore potrebbe usare e, una volta conosciute le più popolari, possiamo decidere di fare qualche test.

    Vedi sopra: clustering e pseudo relevance feedback.

    Vedo bene anche qualche tecnica basata su informazioni antropiche, ma è difficile da testare e comunque gli effetti di un'espanzione attraverso clustering mi sembrano molto più evidenti.

    So bene che è molto probabile che queste tecniche vengano messe in opera per chiavi diverse

    Anche se l'effetto apparente è quello, è improbabile che esistano algoritmi diversi per query diverse. In un sistema progettato decentemente, l'algoritmo dovrebbe essere unico, con alcune parti/pesi/fattori che si "affievoliscono" automaticamente (fino eventualmente ad avere valenza nulla) a seconda della query.

    Si preleva il contenuto dei documenti top-ranked e filtrando i termini non utili (per es. i termini usati troppo spesso nell'intero indice e i termini usati troppo poco) si ottengono i termini con i quali verrà formata la query espansa.

    In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.

    Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.


  • Super User

    In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.
    Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.Grazie della precisazione 🙂

    Io mi riferivo, in effetti a quanto letto in "Improved Algorithms for Topic Distillation in a Hyperlinked Environment", quindi ad un'applicazione leggermente diversa ma che comunque utilizza un sistema di espansione della query:

    ...matching the query against the document is
    usually not sufficient. Instead we use the documents in
    the start set to define a broader query and match every
    document in the graph against this query. Specifically,
    we consider the concatenation of the first 1000 words
    from each document to be the query, Q and compute
    similarity(Q;D).
    In our implementation, since queries are long and the
    document vocabulary tends to be varied we use term
    frequency weighting. We use cosine normalization in
    weighting both the query and the documents since the
    deviation in term vector lengths is large. See Salton...

    Ed in effetti concatenando prima i termini delle query e calcolando poi il vettore della query risultante dovrei ottenere lo stesso tipo di risultato.

    O no?


  • Super User

    @beke said:

    Ed in effetti concatenando prima i termini delle query e calcolando poi il vettore della query risultante dovrei ottenere lo stesso tipo di risultato.

    Un risultato analogo, ma non identico. Le principali differenze sono che

    1. dei documenti vengono presi solo i primi X caratteri mentre un indexer full text generalmente ingoia tutto il testo (tranne le stop word);

    2. ad essere sommati alla query sono i termini, non i vettori dei documenti (anche se poi vengono trasformati in vettori);

    3. il tipo di somma pesata prevede che ai termini della query originaria venga applicato un peso triplo rispetto ai termini estrapolati dai documenti.

    Questo approccio è anche computazionalmente più oneroso rispetto alle semplici somme tra vettori compiute da un normale pseudo relevance feedback ed i risultati sono sicuramente diversi, anche se bisognerebbe implementare i due sistemi per misurarne la diversità (che comunque varia anche in funzione del corpus e sicuramente di altri fattori).


  • Bannato Super User

    La lista dei termini complementari è sicuramente un valido punto di partenza !!
    🙂


  • Super User

    Credo che i passaggi importanti di questo concetto siano:

    In un modello vettoriale, l'espanzione avviene sommando (algebricamente) al vettore della query iniziale i vettori dei documenti estrapolati con la prima ricerca.

    Esistono vari modiper effettuare la somma. A volte è una somma, altre volte una media, ecc.

    Tutto dipende da quale tecnica viene usata dal motore per espandere le query.

    Non si conosce quindi *quale *espansione o come il MDR la applichi.

    ...qui non mi ci ritrovo...a me pare che i termini li SOTTRAGGA dalla ricerca invece di aggiungerli...sbaglio?
    e perchè lo fa? se io utente cerco HOTEL ROMA perchè il mdr dovrebbe togliere la key hotel?
    Tentando di sviluppare l'esempio dell'espansione della query di mamilu su Hotel Roma;
    -" il MDR prende la richiesta hotel Roma e la espande, aggiungendovi con parametri tutti suoi altri termini correlati, come Giorgio ci ha mostrato su con vendita computer.

    Cioè il MDR. con tecniche conosciute solo a lui, parte dalla query *hotel * e la espande aggiungendovi termini a sua discrezione.

    Facendo il percorso inverso possiamo scoprire questi termini:
    Digitiamo **hotel ** e vediamo la risposta di 505 milioni; i termini hotel in neretto... ma anche altri.

    E allora togliamo hotel dalla query [-hotel] e scopriamo che anche senza nessun temine hotel il MDR ci restituisce 106 milioni di pagine mostrandoci in neretto INN -accommodation -lodging

    E' evidente che quei termini il motore, in quel caso, quel giorno [e chissà cos'altro] considera espansioni della query Hotel 😄

    Rifacendo la ricerca togliendo una ad una quelle key, vediamo l'importanza che il MDR ha attribuito ad ogni word che ha inserito nell'espansione della query Hotel

    Rileggiamo:

    ~hotel 505.000.000
    ~hotel -hotel 142.000.000
    ~hotel -hotel -INN 106.000.000
    ~hotel -hotel -INN -accommodation 38.400.000
    ~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.,

    :ciauz:


  • Bannato Super User

    Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !

    Essi teoricamente dovrebbero avere [condizionale d'obbligo] i termini che fanno la differenza... 🙂


  • Super User

    Ne deriva alla fine una serp "abbastanza limitata" che sarebbe opportuno analizzare per scoprire in maniera "relativamente semplice" la ragione per cui i siti restati in serp dopo la scrematura sono restati li !

    ~hotel -hotel -INN -accommodation -lodging non ha prodotto risultati in nessun documento.,

    Query hotel, il MDR mostra un risultato che include altri termini e togliendoli uno ad uno il risultato è zero, non ne restano lì.

    Finchè la serp mostra risultati significa che un ulteriore termine, frutto dell'espansione è presente.

    Nella fase intermedia, cioè dopo aver tolto il primo o il secondo dei termini frutto dell'espansione, quella serp limitata non si presta ad analisi di sorta [relativamente all'espansione] in quanto non conosciamo il MDR che tecnica usi per quell'espansione della query.

    Ci è però possibile estrapolare quei termini :ciaosai:


  • Bannato Super User

    Vorrei chiarire quello che volevo trasmettervi che probabilmente strampalatamente ha creato anziche fare chiarezza molta confusione.

    Io mi regolo nel seguente modo...

    Poniamo il caso che voglia cercare i termini utilizzati da gg per fare l'espansione della query sulla keyword Paperopoli 🙂

    Prima escludo tutti i termini che sicuramente, vuoi per conoscenza, vuoi per altri fattori sono certo che gg considera

    Paperone
    Paperino
    Paperina
    Banda Bassotti
    Qui quo qua
    Nonna papera
    Archimede

    A questo punto [dando per scontato quanto scritto sopra] , nei siti restanti dovrò cercare quelli che non ho utilizzato ma che GG invece considera ! Se come risultato finale avrò invece 0, teoricamente dovrebbero essere quelli che ho indicato!
    Lo so è un ragionimento contorto, però lo ritengo attendibile, non credete ?

    :ciauz:


  • Super User

    visto che questa cosa dell'espansione mi incuriosiva e volevo capirci di + (come yak) ho fatto qualche prova..

    devo dire che per es con hotel a firenze il discorso riportato da andrea funziona.. si trovano molti termini: inn, accommodation, tourism, lodging, .. prima di arrivare a non ha prodotto risultati in nessun documento

    pero' se provo con altre keyword non mi capacito molto di come ragioni...
    ad es ho provato con

    ~viaggi -viaggi -voli non ha prodotto risultati in nessun documento

    possibile che non aggiunga altri termini rilevanti? che dia per scontato che la parola più legata e significativa per i viaggi siano i voli?
    quindi forse un viaggio in nave, treno, pullmann è davvero poco rilevante?

    e in inglese?
    ho provato prima in italiano:
    ~toscana -toscana -firenze -livorno -lucca -tuscany non ha prodotto risultati in nessun documento (interessante scoprire che lucca e livorno contino più di siena e arezzo!)

    ma nell'inglese..
    ~tuscany -tuscany - non ha prodotto risultati in nessun documento.

    che senso ha?

    scusami giorgio se le mie domande ti possono sembrare fuori luogo. ho capito a livello teorico il ragionamento semantico.. ma nel pratico ho ancora difficoltà :mmm:


  • Super User

    Vorrei poter scrivere molto di più sull'argomento, ma il tempo è tiranno.

    Risposta lampo: non confondete l'espansione esplicita (quella che l'utente chiede con l'operatore "~") con l'espansione implicita, operata da Google per conto suo, a monte.

    L'operatore "~" non può fornire indicazioni precise su quali termini Google utilizza per espandere implicitamente una query.

    Google espande le query per conto suo, con termini che sa solo lui.

    L'operatore "~" è tutta un'altra storia. E' comunque sfruttabile per capire qualcosa in più, ma non sufficiente per sapere quali termini Google realmente usa per espandere le query.


  • Super User

    @nelli said:

    ho provato prima in italiano:
    ~toscana -toscana -firenze -livorno -lucca -tuscany non ha prodotto risultati in nessun documento (interessante scoprire che lucca e livorno contino più di siena e arezzo!)

    ma nell'inglese..
    ~tuscany -tuscany - non ha prodotto risultati in nessun documento.

    che senso ha?
    Difficile dirlo.
    Certo è, come ha detto Low, che questo è un'altro dei casi in cui si rischia di fare confusione fra quello che il motore di ricerca evidenzia nei risultati e quello che usa per ordinarli.

    Il fatto di evidenziare alcune parole nelle pagine dei risultati della query con la tilde (quello che Low chiama "espansione esplicita") può essere semplicemente frutto di studi di usabilità o chissà che altro ed usare criteri anche molto diversi da una espansione della query effettuata a monte (e a noi non visibile, "implicita" quindi) ed usata per la selezione e/o l'ordinamento dei documenti.

    Quest'ultima può essere effettuata in più di un modo, per esempio (e molto a grandi linee, perchè meglio non so fare :D):

    Pseudo feedback - aggiungendo alla query originale parte del contenuto dei documenti "top ranked" (ritenuti attinenti e quindi contenenti termini correlati) e poi ordinando nuovamente i risultati.

    Co-occorrenza delle keywords - Valutando quali siano nell'intero indice del motore i termini significativi che più frequentemente coesistono con la query.

    Oppure utilizzando sistemi complessi che valutano relazioni semantiche, non dimentichiamoci che Adsense usa un sistema del genere, sviluppato da Applied Semantics, acquistata all'uopo da Google.

    Esistono anche sistemi probabilistici e probabilmente molto altro, ma sono sicuro che appena avrà un pò di tempo Low scriverà uno dei suoi post imperdibili a riguardo 🙂


  • Super User

    Scusate, sono un po' confuso:

    [url=http://www.google.it/search?q=vendita]vendita: 35.100.000 risultati
    [url=http://www.google.it/search?q=%7Evendita]~vendita: 16.800.000 risultati
    [url=http://www.google.it/search?q=%7Evendita+-vendita]~vendita -vendita: 3.760.000 risultati

    Quello che non capisco è come mai la seconda query (quella con la tilde) restituisce un insieme di risultati più limitato della prima. :mmm:

    Non è per caso che stiamo dando per scontato qualcosa che in realtà non lo è (l'attendibilità di questi risultati, per esempio)?

    Aggiungo un'altra considerazione: l'operatore tilde è utile in effetti per vedere quali sono i termini che Google considera sinonimi di una determinata keyword, e ottimizzare il proprio sito di conseguenza. Però non dobbiamo dimenticarci che sono le prime tre pagine di risultati quelle che contano (ossia quelle che vengono effettivamente consultate e cliccate dagli utenti), perciò se la keyword strategica nel nostro mercato è "pippo", difficilmente potremo salire nella top-10 (o nella top-30) ottimizzando per "pippe". 😄

    Battute a parte, il mio ragionamento fila, spero?


  • Super User

    Quello che non capisco è come mai la seconda query...

    ...perchè non hai letto il thread del tutto 😉

    Tenta, e vedrai che capirai immediatamente. :ciauz:


  • Super User

    @Mamilu said:

    ...perchè non hai letto il thread del tutto 😉

    Tenta, e vedrai che capirai immediatamente. :ciauz:

    OK, credo di aver afferrato il concetto fondamentale: l'insieme di risultati per la query espansa da Google ([url=http://www.google.it/search?q=vendita]vendita) è più esteso di quello per la query espansa dall'utente ([url=http://www.google.it/search?q=%7Evendita]~vendita) perché l'espansione implicita e quella esplicita in realtà fanno riferimento a due algoritmi distinti e scorrelati.

    Ero stato indotto a conclusioni erronee dall'esempio contenuto nel post iniziale di GT, quello con la query [url=http://www.google.it/search?q=computer]computer, per la quale l'operatore tilde produce un'espansione del set di risultati, e non un restringimento come in questo caso.

    Perciò, a questo punto, credo di concordare al 100% con quanto scrive LowLevel:

    @LowLevel said:

    L'operatore "~" non può fornire indicazioni precise su quali termini Google utilizza per espandere implicitamente una query.

    Google espande le query per conto suo, con termini che sa solo lui.

    L'operatore "~" è tutta un'altra storia. E' comunque sfruttabile per capire qualcosa in più, ma non sufficiente per sapere quali termini Google realmente usa per espandere le query.

    Sono però anche d'accordo con GT sul fatto che l'espansione esplicita della query sia utile per ampliare il "tema" del sito con sinonimi e parole correlate (come quelle restituite da un thesaurus).

    Questo può --sottolineo può-- produrre due effetti positivi, secondo me:

    • migliorare leggermente il posizionamento del sito nel caso il motore di ricerca utilizzi algoritmi di tipo semantico (che prendano cioè in considerazione il tema del sito) in fase di ranking, soprattutto per query molto generiche;
    • aiutarci a posizionare il sito per la "coda lunga" di keyphrase meno competitive (ma potenzialmente altrettanto importanti per numero complessivo di ricerche) costituita da sinonimi e parole correlate.

    Quello che non può aiutarci a fare, sempre secondo me, è migliorare drammaticamente il posizionamento per parole chiave molto competitive (prontissimo ad essere smentito su questo punto). Insomma, ribadisco il concetto del mio post precedente: l'obiettivo è quello di figurare nei primi 10/20/30 risultati, non nei primi 30.000.000 (e l'operatore tilde temo lo utilizzino solo i SEO e pochi altri). 😉

    Siete d'accordo con questa interpretazione?