• User

    File robots.txt ignorato

    Buongiorno,
    avrei bisogno di un chiarimento da parte vostra a proposito di una situazione che mi si sta presentando in questi giorni.
    Ho un sito in wordpress all'interno del quale ci sono delle pagine che erano state indicizzate ma che erano delle semplici bozze.
    Ho impostato queste pagine come "Bozze" in wordpress e in effetti ora sono irraggiungibili. Il problema però è che google continua a tenerle nell'indice.
    A questo punto ho inserito le pagine da non indicizzare all'interno del file robots.txt nella speranza che non apparissero più nelle serp; e invece con mio grande
    stupore le pagine continuano a essere indicizzate.
    Ho anche pensato che forse a google servisse più tempo per riscansionare il sito ed eliminare le pagine non più esistenti; e invece facendo una prova con una di queste pagine, eliminandola
    definitivamente ho notato che le serp si aggiornano dopo uno o due giorni.

    Riporto una delle istruzioni che ho inserito all'interno del file robots che a quanto pare viene ignorato:

    
    User-agent: *
    Disallow: /?p=12000
    
    

    La pagina che vorrei escludere dalla scansione è: wwwmiositoit/?p=12000

    Spero in un vostro suggerimento.


  • Super User
    1. Cambi url della pagina indicizzata su Google in modo tale che non venga più trovata
    2. Fai un Redirect 301 dalla vecchia pagina alla home (o altra pagina indicizzata che vuoi far vedere)

  • Moderatore

    Ciao silvername,

    @silvername said:

    Ho un sito in wordpress all'interno del quale ci sono delle pagine che erano state indicizzate ma che erano delle semplici bozze.
    Ho impostato queste pagine come "Bozze" in wordpress e in effetti ora sono irraggiungibili. Il problema però è che google continua a tenerle nell'indice.
    A questo punto ho inserito le pagine da non indicizzare all'interno del file robots.txt nella speranza che non apparissero più nelle serp; e invece con mio grande
    stupore le pagine continuano a essere indicizzate.
    Ho anche pensato che forse a google servisse più tempo per riscansionare il sito ed eliminare le pagine non più esistenti; e invece facendo una prova con una di queste pagine, eliminandola
    definitivamente ho notato che le serp si aggiornano dopo uno o due giorni.

    Riporto una delle istruzioni che ho inserito all'interno del file robots che a quanto pare viene ignorato:

    >
    User-agent: *
    Disallow: /?p=12000
    
    >```
    
    La pagina che vorrei escludere dalla scansione è: wwwmiositoit/?p=12000
    Sicuro che il robots.txt venga ignorato?
    Tieni conto che l'esclusione nel robots.txt di un URL già indicizzato in sé non ne comporta la de-indicizzazione. Anzi potrebbe prevenirla: ora la pagina dovrebbe se ho capito bene restituire un 404 "Not Found", ma il bot di Google non può scoprirlo perché gli è impedita l'esplorazione della risorsa da parte del robots.txt
    
    Spero d'esserti stato utile

  • User

    Grazie per la risposta, sei stato molto chiaro.
    In effetti stavo commettendo un errore pensando che con l'utilizzo di regole "Disallow" all'interno del file robots.txt per far sparire
    alcune pagine già indicizzate dalle serp.

    Grazie ancora per il chiarimento.

    @Federico Sasso said:

    Ciao silvername,

    Sicuro che il robots.txt venga ignorato?
    Tieni conto che l'esclusione nel robots.txt di un URL già indicizzato in sé non ne comporta la de-indicizzazione. Anzi potrebbe prevenirla: ora la pagina dovrebbe se ho capito bene restituire un 404 "Not Found", ma il bot di Google non può scoprirlo perché gli è impedita l'esplorazione della risorsa da parte del robots.txt

    Spero d'esserti stato utile