Wordpress - bloccare ai motori le pagine TAG, Autori e Footer

kekko24

Wordpress - bloccare ai motori le pagine TAG, Autori e Footer

Salve, dovrei creare un robots.txt per bloccare ai motori le pagine TAG, Autori e Footer del mio sito in WP, qualcuno potrebbe aiutarmi ?

juanin

Ciao kekko24

User-Agent: *
Allow: /
Disallow: /tag/
Disallow: /author/

Non capisco invece cosa intendi con pagine Footer.

kekko24

1
intanto grazie. Io nel template WPress, nel tema, ho una serie di pagine che vengono richiamate, per formare la pagina finale degli articoli del sito.

Ad esempio, footer.php nella cartella /wp-content/themes/ dove c'è anche functions.php, viene richiamata per ogni pagina, e rappresenta la parte più bassa della pagina. Ho paura che essendo richiamata in ogni pagina, ed essendo un testo lungo, google lo percepisca come testo duplicato tra le pagine del sito. Per questo volevo bloccarlo ai motori.

2
In pagine con troppi link in uscita, conviene inserire il nofollow ?
Sul mio sito ho alcune pagine con 300 parole di testo e 20/25 links a pagine a tema.

juanin

Se vuoi escludere quel testo perché inutile toglilo proprio perché non puoi escludere porzioni di testo via robots.txt.

Dipende. Se sono utili non sono per forza troppi e visto che dici 20/25 dipende come sono. Sono una lista di siti oppure sono inglobati nel testo?

kekko24

1
io volevo bloccare l'intero file footer.php

2
Sono una lista di siti con 3 o 4 parole che descrivono il link. I link sono verso siti a tema, spesso verso pagine di forum.

juanin

1
Il file footer.php è incluso dinamicamente via template quindi diventa parte della pagina e dunque agli occhi del motore è testo facente parte della pagina HTML finale.

kekko24

perfetto grazie, dunque devo abbreviarlo
Grazie ancora Juanin

bobo

A mio avviso non dovrebbe essere usato il robots.txt per impedire l'indicizzazione di quelle pagine, molto meglio

juanin

Ciao Bobo,

senza dubbio il noindex va bene (se non vuol fare indicizzare), ma kekko24 ha chiesto come bloccare le pagine allo spider tramite robots

bobo

Hai perfettamente ragione, ma mi permettevo di suggerire di valutare altri modi per evitare la comparsa nelle SERP di questa situazione:

giorgiotave.it/forum/wordpress/193796-non-e-disponibile-una-descrizione-strano-avviso-da-google.html

Io per un'impostazione simile mi ritrovo migliaia di pagine indicizzate in questo modo, che quindi presumo che periodicamente lo spider visiti togliendo tempo e risorse al sito. Bloccando con i meta tag, al contrario, le pagine non vengono proprio indicizzate.

juanin

No Bobo in realtà è proprio l'opposto.

Se usi il robots lo spider smette di passare perché glielo hai espressamente impedito mentre usando il noindex dici di non indicizzare, ma non vieti il passaggio.

In sostanza con il robots.txt gli chiedi di non passare in quelle pagine (ma non di non indicizzarle perché potrebbero esserci altre vie per cui possono essere messe nell'indice) mentre con il meta NOINDEX dici espressamente di non mettere nell'indice tali pagine, ma gli consenti di vederne il contenuto e quindi lasciando ad esempio il FOLLOW fai sì che il pagerank fluisca anche se tali pagine vengono escluse dall'indice.

Di conseguenza se vuoi preservare il tuo Crawl Budget il robots è l'ideale mentre se vuoi evitare l'indicizzazione allora è necessario il NOINDEX per averne la certezza.

bobo

Non sono totalmente d'accordo: prova a vedere lo screenshot a questa pagina

plus.google.com/113867674728455110556/posts/RUs9iY4aQas

questo succede quando blocchi con robots.txt ed è la dimostrazione che la pagina (intesa come URL) è indicizzata. Mi sono trovato in un caso simile un po' particolare, provo a riassumere brevemente.

Sito su WordPress
Nel robots.txt è presente (ahimè) anche questa riga:

Disallow: /*?*Di default Wordpress attiva come link per un reply ad un commento un indirizzo di questo tipo:

nomesito.com/permalink/?replytocom=10276#respond

Ho letteralmente migliaia di pagine indicizzate che nelle SERP mi riportano l'indicazione "Non è disponibile una descrizione per questo risultato a causa del file robots.txt del sito. Leggi ulteriori informazioni.", cioè una pagina per ogni commento inserito. (Ho scritto "ahimè" perchè in realtà la pagina di destinazione ha il canonical della pagina di origine, ma purtroppo il robots risale a qualche anno fa quando l'avevo trovato e copiato senza farmi troppe domande leggendo che sarebbe dovuto essere l'ideale in ottica SEO.)

Nel plugin SEO di Yoast c'è un'opzione per evitare di attivare link di risposta come quello indicato, dopo averlo attivato (e quindi dopo che sono scomparsi i tag <a> alle pagine di risposta) le pagine sottoposte giornalmente a scansione dallo spider (e le altre statistiche presenti sui Webmaster tool) sono letteralmente state stravolte, a dimostrazione che il Crawl Budget ne viene interessato ugualmente.

Come descritto invece nella pagina

support.google.com/webmasters/bin/answer.py?hl=it&answer=93710

"Se Google rileva il metatag noindex in una pagina, eliminerà completamente la pagina dai risultati di ricerca, anche se altre pagine contengono link ad essa."

Il risultato di tutto questo è che

Se blocchi con il robots.txt la pagina è presente nell'indice di Google e può comparire nelle SERP senza descrizione,
Se blocchi con il meta tag la pagina NON è presente nell'indice.

Ovviamente se qualcosa non ti torna fammi sapere, data la situazione in cui mi trovo (con tutte quelle pagine indicizzate ma bloccate) spero di cuore che mi sfugga qualcosa.

juanin

Ciao Bobo È esattamente quello che ho scritto sopra.

Il problema che descrivi tu è molto banale nel senso che tu avendo messo /? impedisci in pratica allo spider di andarsi a leggere il contenuto della pagina e di conseguenza se le pagine sono già state indicizzate lui non potrà più rimuoverle semplicemente perché non può più accedere a quella pagina a causa del robots. Quindi se blocchi una pagina che dentro ha il noindex lo spider non arriverà mai a leggere il noindex.

Torna tutto esattamente. Se vuoi preservare Crawl budget il robots va bene mentre se vuoi deindicizzare una pagina già indicizzata no (a meno di usare GWT).

bobo

Non mi sono spiegato: le pagine le ha indicizzate negli anni nonostante il robots.txt.
Il robots.txt descritto è stato uguale fin dal primo giorno di vita del post.

juanin

Sì ti sei spiegato Bobo.

Se leggi quello che ho scritto ho detto che con il robots non previeni la non indicizzazione, ma solo il crawling!

bobo

Ok, avevo letto di corsa!