Gestire 7000 URL inutili in GSC

crusaders500

Gestire 7000 URL inutili in GSC

Buongiorno,
mi trovo nella situazione di avere circa 7000 pagine PHP su un sito, completamente inutili, che attualmente eseguono un redirect 301 verso altre pagine. Ho già corretto l'errore che causava questi redirect, quindi ora quelle URL non esistono più.
GSC le classifica come "Pagina scansionata, ma attualmente non indicizzata".

Vorrei evitare che Googlebot continui a scansionare questo enorme numero di pagine inutili e inesistenti, alleggerendo così il carico complessivo.

Il mio dubbio è il seguente:
devo prima rimuovere queste URL tramite lo strumento di rimozione di GSC, usando l'opzione "Rimuovi tutte le URL con questo prefisso", e solo dopo aggiungere la direttiva Disallow nel file robots.txt?
Oppure posso eseguire entrambe le azioni contemporaneamente?

Vi chiedo gentilmente un consiglio in merito: dato che i tempi di analisi di GSC sono piuttosto lunghi, vorrei procedere subito con la soluzione corretta, anche perché col tempo rischio di dimenticare cosa ho già fatto.

Grazie!

salvatoreantoniodaniele

Aggiungere subito un Disallow nel robots.txt per bloccare la scansione di quelle URL. Usare lo strumento di rimozione URL di GSC per nasconderle temporaneamente dai risultati di ricerca.

@crusaders500 ha detto in Gestire 7000 URL inutili in GSC:

Buongiorno,
mi trovo nella situazione di avere circa 7000 pagine PHP su un sito, completamente inutili, che attualmente eseguono un redirect 301 verso altre pagine. Ho già corretto l'errore che causava questi redirect, quindi ora quelle URL non esistono più.
GSC le classifica come "Pagina scansionata, ma attualmente non indicizzata".
Vorrei evitare che Googlebot continui a scansionare questo enorme numero di pagine inutili e inesistenti, alleggerendo così il carico complessivo.
Il mio dubbio è il seguente:
devo prima rimuovere queste URL tramite lo strumento di rimozione di GSC, usando l'opzione "Rimuovi tutte le URL con questo prefisso", e solo dopo aggiungere la direttiva Disallow nel file robots.txt?
Oppure posso eseguire entrambe le azioni contemporaneamente?
Vi chiedo gentilmente un consiglio in merito: dato che i tempi di analisi di GSC sono piuttosto lunghi, vorrei procedere subito con la soluzione corretta, anche perché col tempo rischio di dimenticare cosa ho già fatto.
Grazie!

crusaders500

Ciao, ti ringrazio! Ho seguito proprio questa procedura. Il problema è che la segnalazione "Pagina scansionata, ma attualmente non indicizzata" è presente da oltre un mese. La speranza è che avendo effettuato queste operazioni, almeno il crawler eviti di perdere tempo continuando a scansionarla inutilmente.

kal

Le hai tolte e vanno un 404?

Sei a posto, non devi fare nient'altro. GSC si aggiornerà quando gli pare

crusaders500

Purtroppo non sono riuscito a togliere il redirect 301 meta refresh che fanno verso un'altra pagina. Però sul sito non esistono più

kal

@crusaders500 ha detto in Gestire 7000 URL inutili in GSC:

Purtroppo non sono riuscito a togliere il redirect 301 meta refresh che fanno verso un'altra pagina. Però sul sito non esistono più

Aspetta aspetta aspetta.

Con ordine.

meta refresh non è un redirect 301.

meta refresh è un'istruzione di markup HTML lato client.

Googlebot storicamente legge e onora il meta refresh "come se fosse un 301", ma non è strettamente parlando un 301.

Per essere onorato, Googlebot deve poter accedere alla risorsa E fare il parsing dell'HTML (quindi assolutamente NON bloccare con robots.txt come suggerito dall'altro utente, sarebbe un errore!!).

Cosa diversa il 301, per il quale Googlebot non deve fare il parsing dell'HTML ma solo degli header HTTP (e fra parentesi: se sono pagine PHP, il redirect lato server lo puoi impostare DIRETTAMENTE NELLO SCRIPT PHP).

Che intendi però con "non esistono più"? Non hanno più link interni? O qualcos'altro?

crusaders500

Corretto che il meta refresh non è un redirect 301, però l'azione era quella.
Per "non esistono più significa che sul sito ho messo direttamente il link di destinazione e non avvengono più questi redirect.
Quindi devo solo rimuovere tali url con lo strumento di rimozione di GSC e togliere dal robots i suoi disallow?
Grazie

kal

Bene che hai rimosso i link interni, già questo ti risolve il 99% dei problemi.

@crusaders500 ti dico cosa farei io:

visto che sono pagine PHP metterei il redirect 301 nello script al posto del meta refresh (è di molto più efficiente)
rimuoverei in ogni caso il blocco al robots.txt (sennò come li scansiona Googlebot!??!)
e... basta, vivrei felice così

Googlebot quando passerà sulle vecchie URL pian pianino le aggiornerà con quelle nuove esistenti sul sito e le rimuoverà (coi suoi tempi) dai risultati di ricerca sostituendole con le pagine di destinazione.

Nel frattempo, gli utenti che per caso cliccassero su qualche vecchia URL... verranno rediretti velocemente lato server.

crusaders500

Perfetto, hai risposto proprio al mio quesito iniziale. In pratica, ho rimosso il disallow dal file robots.txt e ho richiesto la rimozione degli URL che non sono più presenti.
Il problema, come sai, è che con i tempi biblici di Google non si possono fare molti test... bisogna chiedere a chi ci è già passato! ^_^

kal

@crusaders500 ha detto in Gestire 7000 URL inutili in GSC:

e ho richiesto la rimozione degli URL che non sono più presenti.

Questa cosa non è necessaria

O meglio: è puramente cosmetica lato Google Search Console, ma Googlebot fa comunque quello che gli pare

Comunque hai fatto bene a chiedere!! I forum esistono apposta

pioggia64

ciao @kal
grazie per il tempo che vorrai dedicarmi.
Ho 63.777 pagine scansionate ma attualmente non indicizzate. (sono già scese parecchio, ad aprile erano più di 100.000). ne ho parecchie con questa forma https://www.nomesito.it/search/ 广州越秀区出台小姐姐微𝟒𝟒𝟑𝟓𝟑𝟒𝟔𝟖𝟕 电微同步1̳5̳6̳-̳7̳4̳9̳5̳-̳7̳0̳0̳7̳高级资源-快速安排广州越秀区出台小姐姐微𝟒𝟒𝟑𝟓𝟑𝟒𝟔𝟖𝟕 电微同步1̳5̳6̳-̳7̳4̳9̳5̳-̳7̳0̳0̳7̳高级资源-快速安排.6/feed/rss2/ (parla di prostitute), sto aspettando (da mesi) spariscano da soli, diminuiscono ma continuano ad esserci. C'è qualcosa che si può fare per velocizzare?

altro dubbio: s
altre pagine scansionate ma non indicizzate sono pagine di search tipo questa https://www.sito.it/page/1326/?search=aletta ocean è corretto mettere in robots.txt

User-agent: *
Disallow: /page/
Disallow: /*?search=

così il bot non perde tempo su roba inutile?
grazie infinite per il tuo tempo.

crusaders500

@pioggia64 sembra che l’errore iniziale sia stato non impostare un Disallow per le pagine di ricerca (/search). Queste URL non portano valore aggiunto e, oltre a questo, hanno permesso a degli hacker di iniettare contenuti spam in quantità. È questo il motivo per cui te ne ritrovi ancora così tante indicizzate.

Ti do il mio parere personale (poi sicuramente @kal saprà darti una soluzione ancora più precisa):
Io agirei così:

Impostare un'intestazione HTTP x-robots-tag: noindex lato server per tutte le URL con pattern /search o simili, in modo da forzarne la deindicizzazione;
Attendere che Google scansioni e rimuova le pagine;
Solo quando queste URL saranno sparite da Google, allora procederei a bloccarle via robots.txt con un Disallow, per evitare che vengano ulteriormente scansionate in futuro.
In questo modo non rischi che URL indicizzate restino intrappolate nei risultati per mesi solo perché Google non può più accedervi per rimuoverle.

pioggia64

@crusaders500 grazie!
Purtroppo io mi occupo più delle strategie di contenuti mentre i webmaster sono un'agenzia e non mi sembrano molto sul pezzo. Proverò a chiedere di applicare la tua soluzione.
Grazie ancora per l'aiuto.