Modifica al robots.txt e perdita di posizionamento.

klyde

Modifica al robots.txt e perdita di posizionamento.

Ciao ragazzi, ho un grosso problema. Da qualche settimana mi sono reso conto che il sito sembrava penalizzato, nonostante i miei sforzi le pagine più forti scendevano di posizioni, dopo tante prove ed ipotesi, ho aperto gli strumenti per web master di google e ho notato che c'erano circa 100.000 pagine in che google non trovava, ed erano dovute ad un componente per la traduzione del sito che non funzionava bene e ha generato queste pagine non raggiungibili. Vista questa situazione ho dato la colpa del calo del mio sito a queste 100.000 pagine non raggiungibili, quindi ho inserito nel mio file robots.txt le direttive Disallow: / per tutte le lingue ad esempio Disallow: /en/ , e cosi nel giro di una settimana le pagine in errore sono scese a circa 30.000.
Poi ho letto in un sito che se si usano le url riscritte è opportuno dire a google di non seguire quelle non-SEF in modo da non avere pagine duplicate, e per farlo bisogna inserire nel robots la direttiva Disallow: /?, io l'ho fatto e dopo un paio di giorni le mie pagine più importanti sono sparite, pagine che sono state sempre posizionate ai primi posti ora non ci sono più per trovarle bisogna mettere nel campo di ricerca l'url completa. Cosa è successo? la scomparsa delle mie pagine è attribuibile al "Disallow: /?" ?
Secondo voi l'elevato numero di pagine non trovate da google mi ha penalizzato?
Grazie mille.

marco.quadrella

Ciao klyde, ho spostato la tua domanda in un nuovo thread visto che presenta un caso sostanzialmente nuovo da quello nel quale avevi postato. Adesso sarà più facile sviluppare la discussione ed avrai la giusta visibilità.

Inserire il disallow dal robots.txt dovrebbe essere l'ultima carta da giocarsi nell'ottimizzazione di un sito perché disperde tutto il PageRank che passa attraverso le URL bloccate. A seconda di come è fatta la struttura interna dei collegamenti del sito, si rischia di trovarsi una marea di falle dal quale il PageRank esce senza portare alcun beneficio.

Per una eventuale analisi però è necessario che tu ci dica il nome a dominio del sito coinvolto...
Restiamo in attesa!

Per il momento, buon lavoro!

klyde

Grazie per la risposta. Le le direttive disallow che ho inserito riguardano url he non esistono generate erroneamente da un componente per la traduzione del sito in multilingua. comunque il sito in questione è cellularihitech.it .
Grazie

klyde

[URL=http://www.giorgiotave.it/forum/gt-world/101972-forum-gt-disponibile-alle-versioni-per-telefoni-cellulari.html]Postato via Mobile

Ormai è certo che è in corso una penalizzazione, tutte le key più importanti sono sparite.
[URL=http://www.giorgiotave.it/forum/gt-world/101972-forum-gt-disponibile-alle-versioni-per-telefoni-cellulari.html]Postato via Mobile

Ragazzi mi date un vostro parere? Secondo voi può essere dovuto al Disallow: /*? che ho inserito nel robot? Nel dubbio l'ho eliminato ma vorrei capire se sono sulla strada giusta o meno. Altra cosa che ho fatto ultimamente è stato aggiungere un componente che genera automaticamente dei link quando incontra nei testi determinate parole, ad esempio se scrivo una news su di un cellulare Nokia mi linka il nome del cellulare alla relativa pagina.
Cosa ne pensate?

marco.quadrella

Ciao klyde.

La direttiva Disallow: /*?, come scritto nelle linee guida di Google si usa

Per bloccare l'accesso a tutti gli URL che comprendono un punto interrogativo (?) (più precisamente, qualsiasi URL che inizia con il tuo nome di dominio, seguito da qualsiasi stringa, seguita da un punto interrogativo, seguito da qualsiasi stringa): Hai provato dagli Strumenti per Webmaster di Google a verificare che quella riga non bloccasse l'accesso anche a tutto il tuo forum?
Puoi utilizzare il tool di test per scoprirlo senza rischiare nulla.
Sempre negli Strumenti per Webmaster, hai notato nulla di strano nella sezione riguardante le Sitemap dopo aver modificato il file robots.txt?

Come metodologia, comunque, è meglio capire dove il crawler di Google trovi le URL che restituiscono errore 404 e fare in modo che non le trovi più.
Indaga ed eventualmente correggi gli errori aggiornando i collegamenti o introducendo redirect 301 (almeno per gli indirizzi con link in ingresso).

Riguardo il nuovo componente che inserisce automaticamente link nel testo, sicuramente modificherà il flusso del PageRank nel tuo sito, ma non penso che possa crearti così grossi problemi, se usato con giudizio.

Spero di esserti stato d'aiuto, resto a disposizione.
Buon lavoro!

klyde

Grazie mille per la risposta, infatti sto cercando di capire da dove provengono tutte queste URL errate che Google trova, forse vengo o generate dal file .htaccess che fu modificato quando installai il componente per la traduzione del sito, ora l'ho sostituito con quello originale di Joomla e vedremo se continuano a saltare fuori. Nel frattempo vorrei eliminare dall'indice di Google tutte queste URL che terminano con .HTML-en oppure html-es ect. A seconda della lingua, come posso fare? È possibile farlo tramite robots?
In ogni caso grazie alle modifiche del robots che ho fatto, le url errate nell'indice di Google sono passate da circa 92.000 alle attuali 22000, ma la penalizzazione rimane invariata!!
Postato via Mobile

marco.quadrella

Sì, è possibile tramite robots.txt bloccare tutte le URL che terminano con una particolare stringa.

Sempre dal documento che ti ho linkato dal post precedente:

Per specificare la corrispondenza della fine di un URL, utilizza il carattere $. Ad esempio, per bloccare tutti gli URL che terminano con .xls:
User-agent: Googlebot
Disallow: /*.xls$Dunque per bloccare tutte le URL che terminano con .HTML-en dovrai aggiungere la riga

Disallow: /*.HTML-en$

Se però vuoi un consiglio, non smettere di cercare la causa di tanti indirizzi errati.

Per quanto riguarda la penalizzazione, è anche possibile che sia slegata dalle modifiche al file robots.txt o per lo meno che non dipenda solamente da queste. Al momento, ad esempio, il tuo blog sembra avere grossi problemi coi contenuti duplicati. Guarda questa ricerca o peggio ancora questa nella quale il tuo contenuto (cellularihitech.it/Le-notizie/Ultime-notizie/Google-investe-100-milioni-di-dollari-nell'eolico.html) non è ancora stato indicizzato.

klyde

Grazie per i consigli, ho dato uno sguardo al problema dei contenuti duplicati, e onestamente ho trovato siltanto un paio di articoli parzialmente duplicati scritti da un nuovo articolista, a fronte di migliaia di articoli tutti originali.
Sto cercando di risolvere il problema delle url errate, e pian pianino ci sto riuscendo visto che ora gg ne legge "soltanto" 10.000.
Purtroppo ci sono molte url non sef che non capisco ancosa da dove saltano fuori, ed essendo che tutte iniziano con .html? vorrei dire a google di non indicizzarle, ma non so come fare, sarebbe corretto aggiungere al robot la direttiva Disallow /*.html? ? Grazie.

marco.quadrella

Tutte le URL che vuoi eliminare iniziano per www .cellularihitech.it/.html? ?
Oppure le URL che vuoi eliminare contengono la stringa .html? ?

In ogni caso, copiando l'esempio che ti ho citato nel secondo post, la direttiva "Disallow /*.html?" blocca l'accesso a tutti gli URL che comprendono .html? (più precisamente, qualsiasi URL che inizia con il tuo nome di dominio, seguito da qualsiasi stringa, seguita da .html? , seguita da qualsiasi stringa).

klyde

Ciao, le url che voglio sottrarre agli indici di google sono come questa : http:// www. cellularihitech.it/.html?option=com_content&view=category&layout=blog&id=1&Itemid=100076&reset-settings&limitstart=50 .

Solitamente quanto tempo ci vuole per essere riabilitati da una penalizzazione di Google?
Grazie.

marco.quadrella

Ciao klyde.

Penso che la soluzione che hai adottato adesso funzioni.
Per il futuro ti consiglio di utilizzare gli Strumenti per Webmaster di Google: nella sezione "Configurazione sito" -> "Accesso crawler" hanno un tool che ti consente di testare il file robots.txt (basta specificare le URL da analizzare e premere sul bottone "prova").

I tempi di uscita dalle penalizzazioni variano molto a seconda dalla natura delle penalizzazioni stesse: se davvero nel tuo caso c'è un problema con gli indirizzi erroneamente indicizzati, allora la questione si risolverà in pochi giorni dalle modifiche.

klyde

Grazie mille per i consigli.