• User Attivo

    Grazie per la risposta. Le le direttive disallow che ho inserito riguardano url he non esistono generate erroneamente da un componente per la traduzione del sito in multilingua. comunque il sito in questione è cellularihitech.it .
    Grazie


  • User Attivo

    [URL=http://www.giorgiotave.it/forum/gt-world/101972-forum-gt-disponibile-alle-versioni-per-telefoni-cellulari.html]Postato via Mobile

    Ormai è certo che è in corso una penalizzazione, tutte le key più importanti sono sparite.
    [URL=http://www.giorgiotave.it/forum/gt-world/101972-forum-gt-disponibile-alle-versioni-per-telefoni-cellulari.html]Postato via Mobile

    Ragazzi mi date un vostro parere? Secondo voi può essere dovuto al Disallow: /*? che ho inserito nel robot? Nel dubbio l'ho eliminato ma vorrei capire se sono sulla strada giusta o meno. Altra cosa che ho fatto ultimamente è stato aggiungere un componente che genera automaticamente dei link quando incontra nei testi determinate parole, ad esempio se scrivo una news su di un cellulare Nokia mi linka il nome del cellulare alla relativa pagina.
    Cosa ne pensate?


  • Moderatore

    Ciao klyde.

    La direttiva Disallow: /*?, come scritto nelle linee guida di Google si usa

    Per bloccare l'accesso a tutti gli URL che comprendono un punto interrogativo (?) (più precisamente, qualsiasi URL che inizia con il tuo nome di dominio, seguito da qualsiasi stringa, seguita da un punto interrogativo, seguito da qualsiasi stringa): Hai provato dagli Strumenti per Webmaster di Google a verificare che quella riga non bloccasse l'accesso anche a tutto il tuo forum?
    Puoi utilizzare il tool di test per scoprirlo senza rischiare nulla.
    Sempre negli Strumenti per Webmaster, hai notato nulla di strano nella sezione riguardante le Sitemap dopo aver modificato il file robots.txt?

    Come metodologia, comunque, è meglio capire dove il crawler di Google trovi le URL che restituiscono errore 404 e fare in modo che non le trovi più.
    Indaga ed eventualmente correggi gli errori aggiornando i collegamenti o introducendo redirect 301 (almeno per gli indirizzi con link in ingresso).

    Riguardo il nuovo componente che inserisce automaticamente link nel testo, sicuramente modificherà il flusso del PageRank nel tuo sito, ma non penso che possa crearti così grossi problemi, se usato con giudizio.

    Spero di esserti stato d'aiuto, resto a disposizione.
    Buon lavoro!


  • User Attivo

    Grazie mille per la risposta, infatti sto cercando di capire da dove provengono tutte queste URL errate che Google trova, forse vengo o generate dal file .htaccess che fu modificato quando installai il componente per la traduzione del sito, ora l'ho sostituito con quello originale di Joomla e vedremo se continuano a saltare fuori. Nel frattempo vorrei eliminare dall'indice di Google tutte queste URL che terminano con .HTML-en oppure html-es ect. A seconda della lingua, come posso fare? È possibile farlo tramite robots?
    In ogni caso grazie alle modifiche del robots che ho fatto, le url errate nell'indice di Google sono passate da circa 92.000 alle attuali 22000, ma la penalizzazione rimane invariata!! 😞
    Postato via Mobile


  • Moderatore

    Sì, è possibile tramite robots.txt bloccare tutte le URL che terminano con una particolare stringa.

    Sempre dal documento che ti ho linkato dal post precedente:

    Per specificare la corrispondenza della fine di un URL, utilizza il carattere $. Ad esempio, per bloccare tutti gli URL che terminano con .xls:
    User-agent: Googlebot
    Disallow: /*.xls$Dunque per bloccare tutte le URL che terminano con .HTML-en dovrai aggiungere la riga

    Disallow: /*.HTML-en$

    Se però vuoi un consiglio, non smettere di cercare la causa di tanti indirizzi errati.

    Per quanto riguarda la penalizzazione, è anche possibile che sia slegata dalle modifiche al file robots.txt o per lo meno che non dipenda solamente da queste. Al momento, ad esempio, il tuo blog sembra avere grossi problemi coi contenuti duplicati. Guarda questa ricerca o peggio ancora questa nella quale il tuo contenuto (cellularihitech.it/Le-notizie/Ultime-notizie/Google-investe-100-milioni-di-dollari-nell'eolico.html) non è ancora stato indicizzato.


  • User Attivo

    Grazie per i consigli, ho dato uno sguardo al problema dei contenuti duplicati, e onestamente ho trovato siltanto un paio di articoli parzialmente duplicati scritti da un nuovo articolista, a fronte di migliaia di articoli tutti originali.
    Sto cercando di risolvere il problema delle url errate, e pian pianino ci sto riuscendo visto che ora gg ne legge "soltanto" 10.000.
    Purtroppo ci sono molte url non sef che non capisco ancosa da dove saltano fuori, ed essendo che tutte iniziano con .html? vorrei dire a google di non indicizzarle, ma non so come fare, sarebbe corretto aggiungere al robot la direttiva Disallow /*.html? ? Grazie.


  • Moderatore

    Tutte le URL che vuoi eliminare iniziano per www .cellularihitech.it/.html? ?
    Oppure le URL che vuoi eliminare contengono la stringa .html? ?

    In ogni caso, copiando l'esempio che ti ho citato nel secondo post, la direttiva "Disallow /*.html?" blocca l'accesso a tutti gli URL che comprendono .html? (più precisamente, qualsiasi URL che inizia con il tuo nome di dominio, seguito da qualsiasi stringa, seguita da .html? , seguita da qualsiasi stringa).


  • User Attivo

    Ciao, le url che voglio sottrarre agli indici di google sono come questa : http:// www. cellularihitech.it/.html?option=com_content&view=category&layout=blog&id=1&Itemid=100076&reset-settings&limitstart=50 .

    Solitamente quanto tempo ci vuole per essere riabilitati da una penalizzazione di Google?
    Grazie.


  • Moderatore

    Ciao klyde.

    Penso che la soluzione che hai adottato adesso funzioni.
    Per il futuro ti consiglio di utilizzare gli Strumenti per Webmaster di Google: nella sezione "Configurazione sito" -> "Accesso crawler" hanno un tool che ti consente di testare il file robots.txt (basta specificare le URL da analizzare e premere sul bottone "prova").

    I tempi di uscita dalle penalizzazioni variano molto a seconda dalla natura delle penalizzazioni stesse: se davvero nel tuo caso c'è un problema con gli indirizzi erroneamente indicizzati, allora la questione si risolverà in pochi giorni dalle modifiche.


  • User Attivo

    Grazie mille per i consigli.