- Home
- Categorie
- Digital Marketing
- Google Search Console e Altri Strumenti
- Pagine importanti bloccate dal file robots.txt
-
Pagine importanti bloccate dal file robots.txt
Ciao,
Ho messo in disallow una pagina del mio sito web che è stata erroneamente generata e indicizzata da Google..
Per qualche strano motivo, Google WMT si ostina a dire che è una pagina importante...Come mai? Cosa è possibile fare per spiegare a Google che quella pagina non è per nulla importante?
Per evitare dubbi..Ho naturalmente verificato che la pagina in disallow non riceva mail link ne internamente ne esternamente al sito web...
Come fare?
-
Togli subito quel disallow dal file robots.txt.
Successivamente inserisci questa riga nella sezione head della pagina html:<meta name="robots" content="noindex">
Valerio Notarfrancesco
-
Ciao Valerio,
Il problema è che le pagine sono dinamiche quindi per quella modifica dovrei lavorare un pò sul sito..
Ma scusa..Ma i due metodi di robots.txt o di tag nell'head non sono esattamente identici?
Perchè dovrei rimuovere quel disallow? Non è corretto usare un disallow da robots.txt per deindicizzare una pagina?E' Google stesso che lo suggerisce nelle sue linee guida dove parla dello strumento rimozione url..
Grazie
-
Porretz, non avevo capito che stavi chiedendo per lo strumento di rimozione dell'url.
In questo caso ovviamente è corretto perché é scritto nella loro guida.Tieni presente tuttavia che quello strumento ti rimuove la pagina solo per 90 giorni.
La differenza tra il disallow del file robots e il meta noindex è che il primo blocca solo il passaggio del crawler sul tuo sito ma non impedisce a Google di indicizzare la pagina se trova dei riferimenti da altre parti, il secondo invece è la vera istruzione per non far indicizzare una risorsa, che sia una pagina html o un file pdf.
Ecco perché per escludere definitivamente una pagina si deve usare il meta noindex e allo stesso tempo permettere l'accesso al crawler per leggere il meta tag (da cui il consiglio di rimuovere il disallow).
Se le pagine sono dinamiche puoi inserire un "if" dove verifichi il titolo o il nome della pagina e se corrisponde inserisci il meta noindex.
Valerio Notarfrancesco
-
Ciao, è successo anche a me! ho appena rimosso le righe del robots.txt che generavano l'errore.. spero di non essere incorso in una penalizzazione!
Quello che volevo ottenere io invece era di evitare del contenuto duplicato.
Mi spiego: i file rimossi dal robots.txt sono dei pdf che vengono generati automaticamente per ogni scheda libro - e indicizzati da google -del mio sito ( whitestar .it )
Sto facendo una cosa sensata? con l'obbiettivo di dare più "importanza" alle schede libro in formato html e non avere contenuto duplicato.. forse ha più senso inserire un link rel canonical che punta alla scheda libro in formato html?
-
Decisamente ha più senso il canonical.
Essendo files pdf il rel canonical lo devi inviare nelle intestazioni http aggiungendo questa riga:Link: http://www.example.com/white-paper.html; rel="canonical"
Attenzione che se lo fai devi permettere l'accesso al crawler togliendo il blocco nel file robots.txt.
Valerio Notarfrancesco
-
Ciao Valerio, intanto grazie per la risposta.
Ti chiedo anche un'altra cosa che è un mio dubbio dalla notte dei tempi: qual'è l'impatto per la SEO di questi errori (contenuto duplicato e 404 per esempio)?
Avere 1 errore è penalizzante 1 mentre averne 10 è penalizzante 10 oppure non avere nessun errore è sempre preferibile? immagino che conti la quantità degli errori non se sono presenti errori e basta.. giusto?
-
Gli errori 404 non sono penalizzanti di per sé perché va analizzato il motivo per cui il motore di ricerca incontro l'errore.
Se ad esempio hai cancellato volutamente una pagina è normale che il crawler incontri il 404.Per quanto riguarda invece i contenuti duplicati, da una scale da 1 a 10, rappresentano un problema catalogabile come catastrofico.
Valerio Notarfrancesco
-
Hem.. catastrofico site-wide oppure solo per le pagine con contenuto duplicato ?:)
-
Da prima solo sulla pagina, poi se ci sono tante pagine coinvolte anche sull'intero dominio.
Valerio Notarfrancesco