@kejsirio ha detto in Test SEO: rimozione tramite X-Robots-Tag di una pagina bloccata da robots.txt:
La mia preoccupazione è che veda un aumento di contenuti "poco utili" e mi possa penalizzare in qualche altro modo. Stiamo parlando di 900mila pagine "bloccate ma indicizzate" su un totale di 1,6Mln
È un bel numerone (normale, succede con la navigazione a faccette!), ma non ho notizia di casi in cui questa cosa abbia causato problemi. Anche perché come fa Google a sapere che quel contenuto è "poco utile" se prima non lo scansiona?
La direttiva robots è una direttiva tecnica, non ha nulla a che vedere con l'analisi dei siti web. Ci sono un milione di motivi legittimi per cui un webmaster debba voler bloccare Googlebot.
Stai bloccando l'accesso a Googlebot a delle pagine che effettivamente non vuoi che siano scansionate, Googlebot onora la direttiva, le pagine non finiscono in SERP e tutto è bene quel che finisce bene.
Considera fra parentesi che con il blocco robots.txt stai anche impedendo che quelle URL ricevano (e fluiscano) Pagerank e questo potrebbe o non potrebbe essere un problema, a seconda delle situazioni.
Infatti io di solito raccomando di impostare le URL della navigazione a faccette come:
scansionabili con il rel canonical verso la pagina senza filtriIl pro è che così passano e fluiscono il Pagerank. Il contro è che Googlebot consuma un po' delle risorse del server e questa cosa per siti molto grandi e complessi potrebbe impattare sul crawl budget (anche se un rel canonical ben piazzato di solito riduce al minimo le scansioni di queste pagine da parte di Googlebot).
Ti rimando a questa mia vecchia presentazione fatta al Serious Monkey nel 2019!
https://www.slideshare.net/MartinoMosna/domare-la-navigazione-a-faccette-per-ottimizzare-il-processo-di-scansione