È possibile tramite robots.txt cancellare una pagina dall'indice?

pacoweb

Ciao emmezeta,

le pagine non devono sempre essere necessariamente rimosse (e restituire quindi il codice di stato http 404) .

L'importante è che venga impedito ai crawler di accedere ai contenuti e ciò si può fare agendo sul file robots.txt o con il meta no index.

Ovviamente puoi anche lavorare solo sul file robots.txt e basta.

La differenza sta nel fatto che se segnali le url in Strumenti per Webmaster di Google, la rimozione sarà immediata (max 5 giorni), mentre non segnalandola, devi aspettare la prossima scansione di Google per la rimozione.

shark

Grazie per le informazioni, si come accennato conosco il tool di google per la segnalazione degli url da cancellare...

Comunque mi confermate che se una pagina è nel robots.txt (Disallow) google è "obbligato" a toglierla?

seo.italy

No, non "disallow" ma "noindex"

Per confermare inoltre quello che dice pacoweb (soprattutto l'ultimo paragrafo):
w w w .google.com/support/webmasters/bin/answer.py?answer=93710

Ovviamente non so le tue esigenze specifiche, ma per non perdere l'eventuale link juice che la pagina che vuoi rimuovere ha acquisito potresti fare un redirect 301 ad un altra pagina...

shark

Eh hai ragione ma ho circa 150 siti su cui rimuovere circa 50-60 pagine (con parametri) mi viene da piangere solo al pensiero di segnalare ogni singolo URL da rimuovere.... non c'è modo più veloce o meno "indolore" ?

Grazie mille!!

seo.italy

file robots.txt usando "noindex"
mod_rewrite 301 dalle pagine che vuoi cancellare alle pagine "nuove" (eventualmente l'homepage)

Ciao!

shark

Attualmente c'è già il 301 nelle pagine che voglio rimuovere ma google ci stà mettendo un casino di tempo per toglierle...quindi devo abbinare il 301 a questa modifica nel robots.txt

noindex: pagina.php?id=1
noindex: pagina.php?id=2
noindex: pagina.php?id=3

??
È corretta la sintassi?

Grazie mille!!!

shark

Ho letto il protocollo e noto che c'è solo Disallow: non esiste Noindex: nel protocollo del file....sbaglio?

seo.italy

Effettivamente a quanto pare "noindex" e "nofollow" sono standard che si riferiscono al META tag "robots" - ma a quanto pare Google stesso lo usa anche nel file robots.txt:
sebastians-pamphlets . com/about-noindex-crawler-directives-in-robots-txt/

Quindi penso che lo possa usare anche tu con la sintassi che hai detto.

In ultima istanza, comunque, non è facile togliere delle pagine dall'indice di Google (sebbene mi sembra strano che con un 301 non vengano immediatamente sostituite con quelle nuove...)

shark

No allora vengono levate le pagine....solo che per certe pagine google non ci accede da novembre °_° appunto per questo non ha ancora trovato il 301.

Per un sito ho provato il tool di rimozione...vediamo se funziona

emmezeta

Scusa paco, sono un neonato in confronto a voi in questo campo, ma siccome avevo rimosso alcune pagine giorni fa e il tool recitava così:

"Per farlo, accertati che ogni pagina restituisca un codice di stato HTTP 404 o 410 oppure utilizza un file robots.txt o un metatag noindex per impedire ai crawler di accedere ai contenuti"

...ho cercato di dare il mio contributo al forum ma come giustamente dici tu non è necessario il 404, sorry!

pacoweb

Ciao emmezeta :),

non ti devo assolutamente scusare... ;).

Anzi, continua a dare sempre il tuo contributo sul forum! Qui siamo tutti per imparare e migliorarci, dandoci suggerimenti e consigli a vicenda.