- Home
- Categorie
- Digital Marketing
- Google Search Console e Altri Strumenti
- La Sitemap contiene URL bloccati da robots.txt
-
La Sitemap contiene URL bloccati da robots.txt
Recentemente mi sono accorto che per uno dei miei blog google segnala 61.425 avvisi per url bloccati dal file robots.txt
Il blog è basato su piattaforma wordpress e il contenuto del file robots è il seguente:
User-agent: *Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*? Disallow: /? Allow: /wp-content/uploads # Google Image User-agent: Googlebot-Image Allow: / # Google AdSense User-agent: Mediapartners-Google* Allow: / Sitemap: http://www.nome-sito.it/sitemap.xml.gz
Nel robots non mi sembra di vedere problemi e fin'ora non ho avuto problemi di indicizzazione, però quei 60 mila avvisi un po' mi preoccupano.
Voi usate configurazioni differenti? Dite che sto bloccando contenuti che non è necessario bloccare?
Tipo:
Altri
-
Io ci andrei cauto con
Disallow: /*? Disallow: /?
Considera che spesso WP aggiunge all'head lo shortlink e considera anche che spesso chi ti ricondivide potrebbe ricondividerti con i parametri ad esempio dei feed rss o di eventuali campagne.
Bloccare così quelle URL credo sia nella maggior parte dei casi deleterio in quanto già il canonical per queste cose funziona abbastanza bene.
-
Ciao,
puoi prendere uno degli url che vengono bloccati e nella pagina URL bloccati del GWT fai un test e vedrai quale riga del robots.txt blocca lo spider.
Avrai un quadro più chiaro per capire la situazione.
-
Effettivamente facendo una prova ho visto il risultato è il seguente:
http://www.nome-sito.it/?p=17501
Bloccato dalla riga 14: Disallow: /*?Quel disallow l'avevo messo proprio per bloccare i shortlink, da quel che ne sapevo diversamente si rischia di avere contenuti duplicati, dici che è meglio il disallow?
-
Perchè gli shortlink sono inseriti nella sitemap?
Se sono bloccati non ha senso e gwt ti segnala il problema.
-
Lo shortlink se vuoi puoi escluderlo.
Solitamente WP lo inserisce nell'<head> della pagina. In ogni caso secondo me ha poco senso usare quel disallow nel robots.txt come ti avevo detto prima.
-
-
Se il sito di cui parli è quello che tu hai in firma allora il problema di duplicazione non esiste, in quanto ogni shortlink ha un redirect 301 verso l'url completo.
Continuo però a non capire come mai gli shortlink siano presenti nella sitemap.
-
Si è quello in firma.
Sinceramente non saprei, uso questi due plugin per generale le sitemap: "Google XML Sitemaps" e "Udinra All Image Sitemap" e fanno tutto in automatico, non c'è nessun settaggio da impostare.
Comunque se mi dici che non c'è problema di duplicazione allora tolgo il disallow dal file robots.