• User Attivo

    [Risultati] Ordine lessicografico e SERP

    Vorrei porvi alla vostra attenzione un piccolo test che ho fatto. Qualche mese fa, ho deciso di fare un esperimento riguardo il posizionamento su Google di una particolare parola chiave.
    La keyword è formata da una sequenza di caratteri che, prima di eseguire il test, non comparivano in Google.
    Ho realizzato due pagine web diverse piene di parole senza senso (spinner di caratteri da parole italiane) poi ho creato la prima pagina mam.html e la seconda nan.html.
    A questo punto ho messo il seguente codice html nel blog per creare un link per ciascuna pagina.
    [html]<h2 class="widgettitle">Test</h2>
    <div class="textwidget">
    <a href="http://seodart.net/wm/nan.html">NAN</a>
    <a href="http://seodart.net/wm/mam.html">MAM</a>
    </div>[/html]Mettendo al primo posto la seconda pagina.
    Qualche mese dopo, ho riscontrato che entrambe le pagine sono presenti nei risultati organici (SERP) di Google: al primo posto c'è MAM e al secondo NAN.

    Dunque il fatto che la seconda pagina NAN sia elencata prima di MAM nel blog, non ha determinato un miglior posizionamento nelle SERP ma viene data più importanza alla pagina che ha un nome in ordine lessicografico ascendente privilegiando quindi risorse che cominciano con A piuttosto che con Z.

    Non vedo altra spiegazione.

    Questo mi fa pensare che l'ordine lessicografico è un altro fattore di posizionamento che può essere tenuto in considerazione nelle proprie attività seo.


  • Super User

    al primo posto c'è MAM e al secondo NAN.

    Perdonami l'ovvietà: ma al primo posto facendo quale ricerca?


  • Moderatore

    Mi sono subito posto anch'io la domanda di LowLevel, la risposta immagino sia nel title delle 2 pagine, che non riporto qui per non disturbare il test.


  • User Attivo

    Test interessante, se posso permettermi farei lo stesso con una decina di pagine con iniziali differenti, forse soltanto due sono un po' poche per capire davvero cosa succede.

    Ad ogni modo probabilmente i due link vicini vengono considerati equivalenti, semmai potrei aspettarmi differenze se fossero tipo nell'header e nel footer, ma non ci metto la mano sul fuoco e mi sembrerebbe strano che fosse davvero così... facci sapere cmq.


  • User Attivo

    @LowLevel said:

    Perdonami l'ovvietà: ma al primo posto facendo quale ricerca?

    Non l'ho messo, perché altrimenti al primo posto avreste trovato questa discussione 🙂
    Comunque visto che il test è finito ho usato:
    *"alla csiri"

    *Il problema delle molte pagine può essere risolto cominciando un altro test...


  • Super User

    @SeoDart said:

    Non vedo altra spiegazione.

    Hmm.. Temo che ce ne siano molte di più oltre all'unica che hai pensato. :tongueout:

    Innanzitutto le formule che calcolano l'attinenza tra una query e un documento fanno uso di statistiche sulle parole presenti nell'intero corpus del motore.

    Il fatto che uno dei documenti contenga un numero maggiore o minore di parole già conosciute dal motore, può influenzare tali calcoli. Pur avendo ruotato i caratteri di molte parole, alcune rotazioni hanno dato comunque vita a parole di senso compiuto e sicuramente conosciute dal motore, come la parola "simili", che appare in uno solo dei due documenti.

    In secondo luogo, gli algoritmi di gestione degli errori di battitura potrebbero riconoscere o ritenere una parola di senso compiuto anche nel caso in cui essa sia stata scritta in modo errato. Questo implica che, nonostante alla vista ciascuna parola sembri priva di senso, nel momento in cui essa viene passata al vaglio di un algoritmo per la sua riconduzione a degli n-grammi già conosciuti dal motore, l'output produce comunque informazioni di vicinanza a parole di senso compiuto. Magari le informazioni sono scazzate e la congettura del motore non è sempre corretta, ma esse vengono comunque prodotte.

    Per renderti conto di questo fenomeno, purtroppo solo in fase di querying, è sufficiente che tu cerchi le parole [graize anche all' autio di alcune] (senza virgolette) per renderti conto di come potrebbe avvenire il processo di riconduzione a termini conosciuti. Sia ben chiaro: il fatto che in fase di query avvenga la correzione delle parole non implica necessariamente che una gestione simile avvenga anche in fase di indicizzazione e analisi dei testi dei documenti. Però è altrettanto vero che esistono da anni algoritmi che si avventaggiano di queste analisi per stimare il livello di correttezza sintattica dei testi, un indice qualitativo che non si può escludere venga preso in considerazione dai motori.

    Terzo: c'è un'ulteriore differenza tra le due pagine, ovvero solo una delle due fa uso di neretti (tag "B"). Anche questi tipi di arricchimento possono giocare a favore o a sfavore di una delle due pagine, anche se tali arricchimenti non sono a beneficio delle parole cercate.

    Quarto aspetto: anche il numero delle parole nei documenti è diverso, a causa di alcuni spazi in più in uno dei due. Per certo il numero di parole del documento è sempre stato uno dei parametri delle formule usate per calcolare la "vicinanza" di un documento alla query dell'utente (per esempio, è un parametro tipico del BM25).

    Riassumendo: non è più possibile da tempo creare due pagine di testo sperando di rendere ininfluenti i testi stessi per i calcoli di attinenza documento-query. Quantità di parole, frequenza di parole nel corpus, differenze semantiche e algoritmi di riconoscimento degli n-grammi per la gestione degli errori di battitura tengono conto di tutte le parole di una pagina e influiscono su qualsiasi calcolo di attinenza. Non c'è modo di azzerare la loro influenza, perché le formule usate tengono conto di tali elementi e fattori.

    Si potrebbe andare oltre e ricordare che le formule di cui sopra vengono poi comunque usate per produrre una rappresentazione matematica o spaziale, del documento. Questa fase associa a ciascuno dei due documenti delle coordinate che per certo sono diverse tra loro, essendo i due documenti composti da parole differenti.

    Quindi tu vedi tra le due pagine solo una differenza, nel nome del file, ma in realtà gli algoritmi dei motori di differenze ne vedono decine e le sfruttano tutte per decidere quale delle due pagine è più vicina alla query dell'utente.


  • User Attivo

    Ho scelto appositamente di mescolare le lettere delle parole per non dare vantaggio ad una delle due pagine web.
    Le tue idee sono interessanti, per questo penso ci sia la necessità di condurre un test simile con più pagine, per vedere se la mia intuizione ha fondamento.


  • Moderatore

    Però dovresti usare pagine uguali in tutto e questo significherebbe avere contenuti duplicati.


  • Super User

    @SeoDart said:

    Le tue idee sono interessanti

    Espondendo quanto sopra non vorrei aver indotto all'equivoco ed eventualmente mi scuso precisando: non sono mie idee, è proprio come un motore di ricerca viene progettato. 🙂

    Quando progetti un motore, anche semplice e seguendo le tecnologie e gli algoritmi meno complessi dell'information retrieval, fai le cose in modo che gli algoritmi rendano ciascun documento unico e "distante" da qualsiasi altro.

    In altre parole hai bisogno che ogni documento sia diverso e distante dall'altro, anche nel caso di contenuti identici. E siccome hai questo bisogno progetti il motore in maniera che tale diversità esista sempre.

    Questo implica che non c'è modo di rendere ininfluenti i contenuti di un documento o le informazioni esterne al documento che il motore associa ad esso.

    Quindi non è una questione di quante pagine produci o di quello che ci metti dentro: non esiste proprio modo di creare due (o più) documenti che il motore percepisce come identici né modo di rendere ininfluenti parte dei loro contenuti o (sopratutto) delle informazioni esterne che il motore vi assegna.

    Creare un contesto in grado di isolare un singolo fattore è tecnicamente impossibile, sopratutto perché molti degli elementi valutati non li crei né gestisci tu ma li "produce" il motore stesso attraverso le proprie attività e calcoli.

    @overclokk said:

    Però dovresti usare pagine uguali in tutto e questo significherebbe avere contenuti duplicati.

    Anche questo è corretto. Qualora fosse possibile creare due risorse uguali in tutto e per tutto (cosa che non è possibile), subentrerebbero comunque fenomeni aggiuntivi come quello dei filtri anti-duplicazione, che ovviamente falserebbe in ogni caso i risultati del test.


  • User Attivo

    Che sia esattamente così, è ben difficile. Anche se queste sono pratiche da manuale non è detto che Google le adotti oppure che non adotti delle versioni più avanzate. Queste versioni avanzate potrebbero aver reso obsolete alcune delle tecniche di trattamento/analisi dei testi.

    Penso, personalmente, che i motori di ricerca debbano essere considerati più delle black box, il cui funzionamento è oscuro e per scoprire come si comportano è necessario adottare delle pratiche di "reverse engineering"; la teoria che sta sotto oramai è acqua passata per creare un motore come Google non basta certamente leggere e implementare un motore come quello descritto nei libri di web/data mining perché tanti piccole soluzioni sono protette da segreto industriale (neppure brevettate).

    Utilizzare parole senza senso è una strategia per non far valutare le pagine in base al significato di quello che c'è scritto: (ad esempio) una keyword density del 3% potrebbe influenzare negativamente/positivamente il posizionamento di una pagina rispetto ad una pagina con una keyword density del 2%.

    Per quanto riguarda i testi duplicati, beh... è stato detto tutto.