• User

    Gestire 7000 URL inutili in GSC

    Buongiorno,
    mi trovo nella situazione di avere circa 7000 pagine PHP su un sito, completamente inutili, che attualmente eseguono un redirect 301 verso altre pagine. Ho già corretto l'errore che causava questi redirect, quindi ora quelle URL non esistono più.
    GSC le classifica come "Pagina scansionata, ma attualmente non indicizzata".

    Vorrei evitare che Googlebot continui a scansionare questo enorme numero di pagine inutili e inesistenti, alleggerendo così il carico complessivo.

    Il mio dubbio è il seguente:
    devo prima rimuovere queste URL tramite lo strumento di rimozione di GSC, usando l'opzione "Rimuovi tutte le URL con questo prefisso", e solo dopo aggiungere la direttiva Disallow nel file robots.txt?
    Oppure posso eseguire entrambe le azioni contemporaneamente?

    Vi chiedo gentilmente un consiglio in merito: dato che i tempi di analisi di GSC sono piuttosto lunghi, vorrei procedere subito con la soluzione corretta, anche perché col tempo rischio di dimenticare cosa ho già fatto.

    Grazie!


    S 1 Risposta
  • User Newbie

    Aggiungere subito un Disallow nel robots.txt per bloccare la scansione di quelle URL. Usare lo strumento di rimozione URL di GSC per nasconderle temporaneamente dai risultati di ricerca.

    @crusaders500 ha detto in Gestire 7000 URL inutili in GSC:

    Buongiorno,
    mi trovo nella situazione di avere circa 7000 pagine PHP su un sito, completamente inutili, che attualmente eseguono un redirect 301 verso altre pagine. Ho già corretto l'errore che causava questi redirect, quindi ora quelle URL non esistono più.
    GSC le classifica come "Pagina scansionata, ma attualmente non indicizzata".
    Vorrei evitare che Googlebot continui a scansionare questo enorme numero di pagine inutili e inesistenti, alleggerendo così il carico complessivo.
    Il mio dubbio è il seguente:
    devo prima rimuovere queste URL tramite lo strumento di rimozione di GSC, usando l'opzione "Rimuovi tutte le URL con questo prefisso", e solo dopo aggiungere la direttiva Disallow nel file robots.txt?
    Oppure posso eseguire entrambe le azioni contemporaneamente?
    Vi chiedo gentilmente un consiglio in merito: dato che i tempi di analisi di GSC sono piuttosto lunghi, vorrei procedere subito con la soluzione corretta, anche perché col tempo rischio di dimenticare cosa ho già fatto.
    Grazie!


  • User

    Ciao, ti ringrazio! Ho seguito proprio questa procedura. Il problema è che la segnalazione "Pagina scansionata, ma attualmente non indicizzata" è presente da oltre un mese. La speranza è che avendo effettuato queste operazioni, almeno il crawler eviti di perdere tempo continuando a scansionarla inutilmente.


  • Contributor

    Le hai tolte e vanno un 404?

    Sei a posto, non devi fare nient'altro. GSC si aggiornerà quando gli pare 😁


  • User

    Purtroppo non sono riuscito a togliere il redirect 301 meta refresh che fanno verso un'altra pagina. Però sul sito non esistono più


    kal 1 Risposta
  • Contributor

    @crusaders500 ha detto in Gestire 7000 URL inutili in GSC:

    Purtroppo non sono riuscito a togliere il redirect 301 meta refresh che fanno verso un'altra pagina. Però sul sito non esistono più

    Aspetta aspetta aspetta.

    Con ordine.

    meta refresh non è un redirect 301.

    meta refresh è un'istruzione di markup HTML lato client.

    Googlebot storicamente legge e onora il meta refresh "come se fosse un 301", ma non è strettamente parlando un 301.

    Per essere onorato, Googlebot deve poter accedere alla risorsa E fare il parsing dell'HTML (quindi assolutamente NON bloccare con robots.txt come suggerito dall'altro utente, sarebbe un errore!!).

    Cosa diversa il 301, per il quale Googlebot non deve fare il parsing dell'HTML ma solo degli header HTTP (e fra parentesi: se sono pagine PHP, il redirect lato server lo puoi impostare DIRETTAMENTE NELLO SCRIPT PHP).

    Che intendi però con "non esistono più"? Non hanno più link interni? O qualcos'altro?


  • User

    Corretto che il meta refresh non è un redirect 301, però l'azione era quella.
    Per "non esistono più significa che sul sito ho messo direttamente il link di destinazione e non avvengono più questi redirect.
    Quindi devo solo rimuovere tali url con lo strumento di rimozione di GSC e togliere dal robots i suoi disallow?
    Grazie


    kal 1 Risposta
  • Contributor

    Bene che hai rimosso i link interni, già questo ti risolve il 99% dei problemi.

    @crusaders500 ti dico cosa farei io:

    1. visto che sono pagine PHP metterei il redirect 301 nello script al posto del meta refresh (è di molto più efficiente)
    2. rimuoverei in ogni caso il blocco al robots.txt (sennò come li scansiona Googlebot!??!)
    3. e... basta, vivrei felice così 😁

    Googlebot quando passerà sulle vecchie URL pian pianino le aggiornerà con quelle nuove esistenti sul sito e le rimuoverà (coi suoi tempi) dai risultati di ricerca sostituendole con le pagine di destinazione.

    Nel frattempo, gli utenti che per caso cliccassero su qualche vecchia URL... verranno rediretti velocemente lato server.


  • User

    Perfetto, hai risposto proprio al mio quesito iniziale. In pratica, ho rimosso il disallow dal file robots.txt e ho richiesto la rimozione degli URL che non sono più presenti.
    Il problema, come sai, è che con i tempi biblici di Google non si possono fare molti test... bisogna chiedere a chi ci è già passato! ^_^


    kal 1 Risposta
  • Contributor

    @crusaders500 ha detto in Gestire 7000 URL inutili in GSC:

    e ho richiesto la rimozione degli URL che non sono più presenti.

    Questa cosa non è necessaria 🙂

    O meglio: è puramente cosmetica lato Google Search Console, ma Googlebot fa comunque quello che gli pare 😇

    Comunque hai fatto bene a chiedere!! I forum esistono apposta 😉