Altro caso interessante

tosix

Altro caso interessante

Ed ecco qui a portare anche la mia disavventura con la directory che ho in firma. Faccio una breve descrizione temporale dei fatti accaduti per poter arrivare alle conclusioni e possibili soluzioni.

12-05-2008 Mi decido ad aggiornare lo script (esyndicat) della directory all'ultima versione. Errore madornale: dopo un week end intero di lavoro per aggiustare il tutto e rendere la directory utilizzabile, mi accorgo dopo due giorni di un errore commesso da chi ha creato lo script di migrazione del database della versione di esyndicat. In pratica tutti i dati dei siti inseriti sono stati importarti correttamente, solo per un "piccolo particolare irrilevante" : tutti gli id sono stati cambiati. In pratica lo script di importazione ha considerato tutti gli id uno dietro l'altro...ma bastava che un sito fosse stato cancellato perche' non accettato per far cambiare tutti gli id. Il cambio degli id dei siti inseriti ha portato ovviamente al cambio delle url dei siti, con conseguente marea di 404. Ormai e' troppo tardi per tornare indietro, dopo 2 giorni, molte delle nuove pagine sono gia' indicizzate.
14-05-2008
Analisi degli effetti del cattivo aggiornamento:

numero di visite invariato
frequenza di rimbalzo aumentata del 10-15%
numero di pagine visualizzate -40%
tempo medio sul sito invariato
media delle pagine viste -40%

Decido quindi, visto la velocita' con cui sta indicizzando le nuove pagine, di continuare su questa strada, sperando che Google trovando la pagina di 404 inizi contemporaneamente a rimuovere dall'indice le vecchie pagine.
07-06-2008
Catastrofe assoluta calo dell' 85% delle visite sulla directory . Decido quindi di muovermi subito, dal wmtool trovo circa 1100 errori 404, prendo la lista e la metto all'interno del robots .
19-06-2008
Situazione invariata in termini di visite. Dal pannello wmtoll le pagine che danno 404 sono scese a 494 .

Mi sembra abbastanza palese la penalizzazione subita sulla directory, ma il dubbio mi sorge spontaneo: siamo sicuri che la penalizzazione sia dovuta a questi errori 404? Potrebbe essere una penalizzazione delle directory che sta avvenendo piu' in generale, e quindi sia una coicidenza, tipo quella avvenuta per i siti di article marketing tempo fa?
In ogni caso aspetto i vostri consigli per capire meglio la situazione e magari riuscere anche ad uscirne se si riesce

Dominio:
www.semdir.com

Motori:
Google

Prima indicizzazione o attività:
30/01/2007

Cambiamenti effettuati:
Aggiornamento dello script della directory

Eventi legati ai link:
Nessuno

Sito realizzato con:
esyndicat

Come ho aumentato la popolarità:
directory e link di ritorno non obbligatori

Chiavi:
essendo una directory molte, ma nessuna di importante

Sitemaps:
Si

mister.jinx

Ciao tosix,

cortesemente potresti indicare tra le tante keyword qualcuna rilevante per la quale hai avuto un tracollo ?

tosix

Certo nessun problema , come avevo gia' scritto essendo una directory non ci sono key "importanti", ma posso elencarvi alcune di quelle che portavano piu' accessi:
gucci borse
rams 23
prada scarpe
giochi gormiti
disegni per tatuaggi
avatar fantasy

Altra cosa che mi ero dimenticato: cercando il titolo della pagina iniziale "directory - semdir" oppure "directory semdir" il sito ora e' in 11esima pagina

lowlevel

@tosix said:

dal wmtool trovo circa 1100 errori 404, prendo la lista e la metto all'interno del robots .

Perché?

karapoto

A mio parere il caso è molto semplice.

Hai cambiato totalmente le url delle pagine e di conseguenza gli spider non le trovano più.
Ciò spiega la perdita di accessi.

Non basta il fatto che siano state reindicizzate, perchè di fatto sono pagine nuove e senza la forza delle vecchie.

Anzi, in questo momento, risultano come pagine duplicate e, per diverso tempo, saranno nel limbo e non si posizioneranno anche per questo motivo.

Hai sbagliato a mantenere il nuovo script, saresti dovuto tornare sui tuoi passi reinstallando la vecchia versione.

dechigno

Ciao Tosix,

quoto quanto detto da karapoto, difatti la creazione di pagine duplicate porta quasi inevitabilemente a penalizzazioni del genere.

Però, a mio avviso, viste le posizioni dell'homepage anche per "directory - semdir" molto probabilmente è scattata una penalizzazione che ha fatto retrocedere l'intero dominio in serp.

Secondo me dovresti effettuare il 301 dalle pagine vecchie su quelle nuove, bloccare l'accesso degli spider alle pagine vecchine tramite il robots.txt e richiedere la loro eliminazione dagli indici di Google tramite il webmaster tool.

Questo dovrebbe innanzitutto eliminare tutti i duplicati presenti in serp e pulire il sito da tutti gli errori.

Finita questa operazione, valuterai se il sito continua ad essere penalizzato oppure si riprende... e le eventuali azioni da intraprendere per recuperare le posizioni.

Tienici informati,
grazie a presto!

tosix

Grazie a tutti per essere intervenuti passo ora a commentare le varie risposte

@Karapoto said:

Hai cambiato totalmente le url delle pagine e di conseguenza gli spider non le trovano più.
Ciò spiega la perdita di accessi.

Su questo non sono molto d'accordo, in quanto la perdita di accessi avrebbe dovuto verificarsi subito e non dopo un mese.

@Karapoto said:

Non basta il fatto che siano state reindicizzate, perchè di fatto sono pagine nuove e senza la forza delle vecchie.

Una precisazione che mi sono dimenticato di fare e' che non tutte le url sono cambiate, e quelle che portavano piu' accessi non davano 404 e quindi nemmeno contenuti duplicati

@Karapoto said:

Anzi, in questo momento, risultano come pagine duplicate e, per diverso tempo, saranno nel limbo e non si posizioneranno anche per questo motivo.
Hai sbagliato a mantenere il nuovo script, saresti dovuto tornare sui tuoi passi reinstallando la vecchia versione.

Eh lo so e faccio mea culpa ma ormai il danno e' fatto
Lo trovo pero' uno spunto interessante di studio...meglio guardare in positivo

tosix

Ciao Dechigno

@dechigno said:

Secondo me dovresti effettuare il 301 dalle pagine vecchie su quelle nuove, bloccare l'accesso degli spider alle pagine vecchine tramite il robots.txt e richiedere la loro eliminazione dagli indici di Google tramite il webmaster tool.

per effettuare il 301 delle pagine vecchie sulle nuove ormai e' troppo tardi per farlo ho gia' bloccato le url agli spider e sembra che abbiano provveduto alla rimozione dei contenuti o quanto meno non ricevono un errore di 404 (devo verificare quale fra le 2 opzioni ). Per rimuovere tramite wb tool le pagine trovo opzioni per le directory, per l'intero sito o per singole pagine, che dovrebbe fare al caso mio, ma a quanto mi pare prende un'url per volta...o c'e' un metodo piu' rapido?

tosix

Ciao Low

@LowLevel said:

Perché?

Perche' spero che bloccando l'accesso agli spider a quelle pagine, poi vengano anche rimosse dall'indice, risolvendo il problema di contenuti duplicati... o almeno spero

lowlevel

@tosix said:

Perche' spero che bloccando l'accesso agli spider a quelle pagine, poi vengano anche rimosse dall'indice, risolvendo il problema di contenuti duplicati...

Il tuo problema non sono i contenuti duplicati né l'esistenza dei 404.
Anzi, tu hai interesse a comunicare al motore della non più esistenza di alcune pagine, e ti spiego il perché...

L'identità di un sito è ben presente nella "testa" di Google grazie al salvataggio di molte informazioni, le tre che ci interessano in questo caso sono:

l'indirizzo (URL) delle pagine;
la presenza di link nelle pagine (quale URL linka a quale altro URL);
il valore di Pagerank assegnato a ciascun URL.

Queste tre informazioni vengono memorizzate separatamente.

Essendo strettamente correlate l'una all'altra, se nel sito cambia qualcosa inerente anche una sola delle suddette informazioni, Google è costretto a ricalcolare e aggiornare tutte e tre le tipologie di informazioni, in modo che la sua percezione del sito sia completa e corretta. Qui sta il punto focale: tu hai un interesse a facilitare al motore il corretto ricalcolo delle cose.

Cambiando gli ID tu non hai ottenuto come effetto negativo la semplice nascita di pagine inesistenti. Tu hai sminchiato anche l'identità del sito: tra le altre cose, la distribuzione del PageRank è al momento sicuramente sballata.

Le pagine non più esistenti avevano presumibilmente link sia a pagine non più esistenti sia a pagine ancora esistenti. Al motore farebbe comodo sapere che le pagine non più esistenti sono effettivamente inesistenti, perché se sa dell'inesistenza di una pagina, sa anche come gestire i link che stavano su quella pagina, sa come riconvogliare il Pagerank tra le pagine del sito adesso esistenti e siccome il Pagerank è uno dei principali fattori che determinano quanto frequentemente e quanto profondamente lo spider perlustra il sito, sa come dividere le proprie risorse tra gli URL da controllare per ricostruirsi la "mappa mentale" del sito.

Mo'... se tu dici a Google, attraverso il file robots.txt, "Non richiedere il seguente URL", il motore non potrà sapere che le pagine sono (ancora) inesistenti ed il tipo di calcoli che farà saranno non ottimali, in quanto si baseranno su assunzioni e non su certezze.

Il tuo obiettivo non è "far scendere il numero dei 404", il tuo obiettivo è far sì che il motore costruisca nel modo più facile la nuova mappa del sito.

Quindi, visto che non puoi fare redirezioni:

Crea un bel file Sitemap XML con i soli URL realmente esistenti;
Accertati che sul sito non ci siano link rotti che puntano a vecchie pagine non più esistenti;
Accertati che su altri siti non ci siano link rotti che puntano a vecchie pagine non più esistenti (nel caso, predisponi una redirezione per la specifica pagina);
NON METTERE nel robots.txt gli URL che generano 404.

E poi lascia il motore lavorare in pace: fagli perlustrare il sito in tranquillità e fagli ricalcolare tutto quello che deve ricalcolare.

Ci vorrà un po' di tempo ma alla fine il motore avrà una chiara idea della composizione del nuovo sito e di come è giusto che il Pagerank si distribuisca tra le varie pagine.

La fotografia che il motore si farà sulla realtà delle cose sarà comunque più attendibile di quella che potrebbe farsi a seguito di assunzioni (pagina esistente o inesistente? boh, non posso saperlo) o richieste di rimozione "urgente e temporanea" (come quella di Google Webmaster Tools).

tosix

Grazie mille Low , sicuramente un'altro intevento di estrema qualità che riassume anche il pensiero che mi ero fatto appena mi ero accorto che l'aggiornamento di esyndicat aveva creato delle nuove url e perso alcune vecchie a causa dei cambi ID sul database. Rispecchia anche il mio modo di agire iniziale a questo problema anche se poi ho reagito diversamente al calo dell' 85% delle visite dopo un mese.
Per dovere di cronaca, passiamo al modo di reagire allo stato attuale:

@LowLevel said:

Crea un bel file Sitemap XML con i soli URL realmente esistenti;

Questo l'ho fatto subito appena mi sono accorto che le URL erano cambiate e mi ero accorto che non potevo tornare indietro (a mio parere) per facilitare e velocizzare l'indicizzazione delle nuove pagine

@LowLevel said:

Accertati che sul sito non ci siano link rotti che puntano a vecchie pagine non più esistenti;

Per questo punto sono abbastanza tranquillo, visto che i contenuti ed i link vengono creati dinamicamente da DB, quindi le nuove pagine non presentano link a pagine "vecchie"

@LowLevel said:

Accertati che su altri siti non ci siano link rotti che puntano a vecchie pagine non più esistenti (nel caso, predisponi una redirezione per la specifica pagina);

Questo effettivamente è una cosa che ancora non ho verificato e lo farò sicuramente nei prossimi giorni

@LowLevel said:

NON METTERE nel robots.txt gli URL che generano 404.

E poi lascia il motore lavorare in pace: fagli perlustrare il sito in tranquillità e fagli ricalcolare tutto quello che deve ricalcolare.

E questo l'ho fatto al volo

Ora non resta a questo punto attendere anche se questo caso che ho trovato non mi lascia ben sperare non vorrei che la penalizzazione non fosse in relazione a questo problema nell'aggiornamento...

h*tp://www.web2tool.com/directory-penalizzata-da-google.html

lowlevel

@tosix said:

Questo effettivamente è una cosa che ancora non ho verificato e lo farò sicuramente nei prossimi giorni

Fai prima possibile. E' molto importante. Se tu non creerai redirezioni specifiche, Google continuerà a restituire errori 404 fino a quando lo spider troverà link che su altri siti puntano a pagine inesistenti del tuo sito.

Un "link:" sul Siteexplorer di Yahoo! o le statistiche su GWT dovrebbero fornirti una lista abbastanza esaustiva. Ma la quantomeno la raccolta dei backlink va fatta subito, perché in presenza di pagine 404 i risultati di Siteexplorer potrebbero cambiare.

non vorrei che la penalizzazione non fosse in relazione a questo problema nell'aggiornamento...

Tutto è possibile.
Non potrai sapere qual'è la reale causa fino a quando avrai un problema tecnico di percezione del sito da parte del motore.

Sei costretto a risolvere tutti i problemi per escludere, una alla volta, le cause correlate ai problemi tecnici.

tosix

Si infatti proprio ieri ho fatto il primo controllo dei link con GWT e non vi sono link in entrata su pagine che danno 404 per fortuna

tosix

Altro problema riscontrato in questa versione di Esyndicat di cui mi sono accorto, è l'esistenza di url differenti nei Feed RSS e la mancanza di un controllo sull'esattezza dell'url quando si caricano le pagine. In pratica il sito genera url del tipo "Pippo-1.html" e i feed generano url "pippo-1.html". In più esyndicat non fa un controllo al momento di ricezione della richiesta dell'url e restituisce lo stesso contenuto ad entrambe le pagine. Risultato 2 pagine indicizzate identiche.
Ora l'ho risolto al volo con 2 righe di codice, adesso vedremo quanto ci metterà a passare tutti i 301 che arriveranno

tosix

Siamo esattamente ad un mese dal calo drastico di visite, quindi vi faccio un aggiornamento della situazione:

visite sempre stabili, quindi sempre -85% delle visite rispetto a prima
cercano "directory semdir" il sito e' ancora in 11esima pagina
lo spider passa sempre regolarmente e con la stessa frequenza di prima
gli errori 404 per lo spider di google ora sono praticamente inesistenti
dal gwt risultano solamente 77 pagine non trovate al momento
sempre dal gwt risultano problemi sull'analisi dei contenuti con meta description duplicate e titoli duplicati perche' credo debba ancora prendere diversi 301 di cui parlavo nel post precedente
allo stesso modo ad inizio mese ho individuato e risolto un'altro problema, in quanto le url top-links.html,popular-links.html,ecc... dopo l'aggiornamento sono state cambiate in top-listings.html,popular-listings.html .Ovviamente in mezzo a tutto il macello che e' successo, me ne sono accorto solo ad inizio luglio, ma queste non davano 404, ma creavano pagine vuote (non so cosa sia peggio fra le due cose ). Ora tutte le pagine vengono reindirizzate con 301 su quelle corrette.

Credo per ora che sia tutto, anche se rimane sempre il timore che il calo dell'80% sia un effetto a se stante, come altri cali registrati da molti altri proprio nel periodo dal 4 al 9 giugno.

tosix

Altro aggiornamento della situazione:

visite sempre stabili, quindi sempre -85% delle visite rispetto a prima
cercano "directory semdir" il sito flotta ancora dalla 10ima all' 11esima pagina
lo spider passa sempre regolarmente e con la stessa frequenza di prima
gli errori 404 per lo spider di google ora sono praticamente inesistenti
dal gwt risultano ora 44 pagine non trovate al momento
grazie alla serie di 301 fatti e' diminuito notevolmente il numero di pagine indicizzate avvicinandosi al numero di pagine corretto

Ora che fare? La penalizzazione mi sembra evidente, invio una richiesta di reinclusione?