• User Attivo

    perfetto grazie, dunque devo abbreviarlo 😉
    Grazie ancora Juanin


  • User Attivo

    A mio avviso non dovrebbe essere usato il robots.txt per impedire l'indicizzazione di quelle pagine, molto meglio

    <meta name="robots" content="noindex">


  • Admin

    Ciao Bobo,

    senza dubbio il noindex va bene (se non vuol fare indicizzare), ma kekko24 ha chiesto come bloccare le pagine allo spider tramite robots 😄


  • User Attivo

    Hai perfettamente ragione, ma mi permettevo di suggerire di valutare altri modi per evitare la comparsa nelle SERP di questa situazione:

    giorgiotave.it/forum/wordpress/193796-non-e-disponibile-una-descrizione-strano-avviso-da-google.html

    Io per un'impostazione simile mi ritrovo migliaia di pagine indicizzate in questo modo, che quindi presumo che periodicamente lo spider visiti togliendo tempo e risorse al sito. Bloccando con i meta tag, al contrario, le pagine non vengono proprio indicizzate.


  • Admin

    No Bobo in realtà è proprio l'opposto.

    Se usi il robots lo spider smette di passare perché glielo hai espressamente impedito mentre usando il noindex dici di non indicizzare, ma non vieti il passaggio.

    In sostanza con il robots.txt gli chiedi di non passare in quelle pagine (ma non di non indicizzarle perché potrebbero esserci altre vie per cui possono essere messe nell'indice) mentre con il meta NOINDEX dici espressamente di non mettere nell'indice tali pagine, ma gli consenti di vederne il contenuto e quindi lasciando ad esempio il FOLLOW fai sì che il pagerank fluisca anche se tali pagine vengono escluse dall'indice.

    Di conseguenza se vuoi preservare il tuo Crawl Budget il robots è l'ideale mentre se vuoi evitare l'indicizzazione allora è necessario il NOINDEX per averne la certezza.


  • User Attivo

    Non sono totalmente d'accordo: prova a vedere lo screenshot a questa pagina

    plus.google.com/113867674728455110556/posts/RUs9iY4aQas

    questo succede quando blocchi con robots.txt ed è la dimostrazione che la pagina (intesa come URL) è indicizzata. Mi sono trovato in un caso simile un po' particolare, provo a riassumere brevemente.

    Sito su WordPress
    Nel robots.txt è presente (ahimè) anche questa riga:

    Disallow: /*?*Di default Wordpress attiva come link per un reply ad un commento un indirizzo di questo tipo:

    nomesito.com/permalink/?replytocom=10276#respond

    Ho letteralmente migliaia di pagine indicizzate che nelle SERP mi riportano l'indicazione "Non è disponibile una descrizione per questo risultato a causa del file robots.txt del sito. Leggi ulteriori informazioni.", cioè una pagina per ogni commento inserito. (Ho scritto "ahimè" perchè in realtà la pagina di destinazione ha il canonical della pagina di origine, ma purtroppo il robots risale a qualche anno fa quando l'avevo trovato e copiato senza farmi troppe domande leggendo che sarebbe dovuto essere l'ideale in ottica SEO.)

    Nel plugin SEO di Yoast c'è un'opzione per evitare di attivare link di risposta come quello indicato, dopo averlo attivato (e quindi dopo che sono scomparsi i tag <a> alle pagine di risposta) le pagine sottoposte giornalmente a scansione dallo spider (e le altre statistiche presenti sui Webmaster tool) sono letteralmente state stravolte, a dimostrazione che il Crawl Budget ne viene interessato ugualmente.

    Come descritto invece nella pagina

    support.google.com/webmasters/bin/answer.py?hl=it&answer=93710

    "Se Google rileva il metatag noindex in una pagina, eliminerà completamente la pagina dai risultati di ricerca, anche se altre pagine contengono link ad essa."

    Il risultato di tutto questo è che

    1. Se blocchi con il robots.txt la pagina è presente nell'indice di Google e può comparire nelle SERP senza descrizione,
    2. Se blocchi con il meta tag la pagina NON è presente nell'indice.

    Ovviamente se qualcosa non ti torna fammi sapere, data la situazione in cui mi trovo (con tutte quelle pagine indicizzate ma bloccate) spero di cuore che mi sfugga qualcosa.


  • Admin

    Ciao Bobo 😄 È esattamente quello che ho scritto sopra.

    Il problema che descrivi tu è molto banale nel senso che tu avendo messo /? impedisci in pratica allo spider di andarsi a leggere il contenuto della pagina e di conseguenza se le pagine sono già state indicizzate lui non potrà più rimuoverle semplicemente perché non può più accedere a quella pagina a causa del robots. Quindi se blocchi una pagina che dentro ha il noindex lo spider non arriverà mai a leggere il noindex.

    Torna tutto esattamente. Se vuoi preservare Crawl budget il robots va bene mentre se vuoi deindicizzare una pagina già indicizzata no (a meno di usare GWT).


  • User Attivo

    Non mi sono spiegato: le pagine le ha indicizzate negli anni nonostante il robots.txt.
    Il robots.txt descritto è stato uguale fin dal primo giorno di vita del post.


  • Admin

    Sì ti sei spiegato Bobo.

    Se leggi quello che ho scritto ho detto che con il robots non previeni la non indicizzazione, ma solo il crawling!


  • User Attivo

    Ok, avevo letto di corsa! 🙂