• Super User

    [Google Cache] - A volte ritornano...

    Non sono certamente l'unico che coltiva l'hobby di effettuare con compulsiva frequenza la query **site:dominio.tld **su Google per verificare il numero di pagine indicizzate, e quali, dei siti posseduti o gestiti.

    E non sono certamente l'unico ad aver notato, da qualche tempo a questa parte, che talvolta sono conservate nel db multiple versioni di una stessa pagina, alcune risalenti anche ad un anno prima.

    Osservazione già di per sè degna di approfondimento, visto che che Google tende facilmente a liberarsi delle pagine non aggiornate, che non ricevono nuovi backlink, che non vengono visitate. Sarebbe quindi interessante capire in base a cosa una pagina del sito X viene rimossa dall'indice, mentre di una pagina dello stesso sito invece viene conservata in duplice copia.

    Su googlerank.com (perchè qui si fanno nomi e cognomi) quotidianamente vedo pagine "bannate" perchè nello sviluppare il sito me ne sono dimenticato, perchè non ricevono più link interni ecc ecc. Se non fossi un po' pratico della materia sarei preoccupato, invece la ritengo una cosa lecita e normale.

    Parallelamente alcune pagine del sito, che per ovvie ragioni "curo" di più, sono conservate in più versioni.
    Fino a ieri però ero convinto che fosse solo un feticismo del motore di ricerca e che non avesse impatto sulle serp.

    L'esempio pratico:

    cercando "Sandbox di Google"
    http://www.google.it/search?hl=it&q=sandbox+di+google&btnG=Cerca+con+Google&meta=
    appaio primo con la pagina http://www.googlerank.com/ita/guida-posizionamento/sandbox-di-google.html
    e fin qui ci siamo.

    cercando "Sandobox di Google" (notare il typo)
    http://www.google.it/search?hl=it&q=sandobox+di+google&btnG=Cerca&meta=
    appaio secondo, dopo giorgiotave.it/forum (pensa te!) con la pagina http://www.googlerank.com//ita/guida-posizionamento/sandbox-di-google.html

    Già dalla snippet capisco che qualcosa che non va...
    guardo la copia in cache http://72.14.221.104/search?q=cacheEDqsDDs3EEJ:www.googlerank.com//ita/guida-posizionamento/sandbox-di-google.html+sandobox+di+google&hl=it&gl=it&ct=clnk&cd=2
    e vedo che è la versione, vecchissima, della stessa pagina riportata prima, indicizzata il 16 Agosto 200**5

    Osservazioni:

    1. **In questo caso era un typo (errore di battitura), ma non è da escludere che possa avvenire per altri motivi, per alcune ricerche Google inserisce in serp copie anche vecchissime di pagine, che però contengono l'informazione cercata.

    2. Siccome probabilmente se la stessa pagina venisse indicizzata due volte, verrebbe sovrascritta, Google ha "rinominato" la vecchia pagina. Si, perchè se si vede con attenzione l'URL della vecchia pagina, è stato aggiunto un doppio slash tra googlerank.com e ita (googlerank.com**//**ita....sono fuso abbastanza da scrivere sandObox, ma NON da mettere il doppio slash in un URL)

    Prova di conferma: incollando l'URL http://www.googlerank.com//ita/guida-posizionamento/sandbox-di-google.html (con il doppio slash) nel campo di ricerca, compare appunto la vecchia versione, come se adesso la vecchia e la nuova fossero due pagine distinte)

    3. Il title del listing è riportato in maniera errata (La teoria el'osservazione... invece di La teoria e l'osservazione...)

    Ulteriori osservazioni? Capitato anche a voi? In che modo? E soprattutto, a parte un valore di "memoria storica" delle pagine di un sito, per l'utente finale una feature di questo tipo ha una reale utilità? Che senso ha restituire in serp una pagina vecchissima che contiene la query cercata, quando poi cliccando sul link l'utente viene portato ad una pagina diversa (perchè cliccando si arriva alla pagina NUOVA) che potrebbe benissimo non contenere l'informazione cercata?

    Cordialmente,
    Stuart


  • User

    Grande STUART!


  • Community Manager

    Grande Stu,

    secondo me questa potrebbe essere fatta apposta da Google per dire: vedi, io ho risultati anche per questo, nonostante è errato.

    E visto che molte volte i webmaster si accorgono di un errore di battitura dopo tempo e riappano il file giusto quasi sicuramente dopo che la pagina è stata indicizzata, la tengono per mostrarla.

    IMHO 😄