• User Attivo

    Come Rimuovere queste URL con Robots.txt?

    Vorrei disabilitare l'indicizzazione da parte di Google di queste URL dinamiche cosi strutturate:

    cartella/?attachment_id=342
    cartella/?attachment_id=648
    cartella/?attachment_id=219
    etc....

    nelle quali, in sostanza, cambia il valore numerico dopo il segno =

    Qual'è l'istruzione che dovrei inserire nel file robots.txt?

    Grazie anticipatamente per la collaborazione


  • Moderatore

    Ciao alfa038,

    @alfa038 said:

    Vorrei disabilitare l'indicizzazione da parte di Google di queste URL dinamiche cosi strutturate:

    cartella/?attachment_id=342
    cartella/?attachment_id=648
    cartella/?attachment_id=219
    etc....

    nelle quali, in sostanza, cambia il valore numerico dopo il segno =

    Qual'è l'istruzione che dovrei inserire nel file robots.txt?
    Premesso che bloccare via robots.txt non è lo strumento per rimuovere degli URL già indicizzati (a meno che lo fai seguire alla rimozione manuale via Google Search Console), se vuoi bloccare tutti gli URL con tale forma per impedirne la visita da parte dei bot puoi scrivere semplicemente:

    Disallow: /cartella/?attachment_id=

    Spero d'esserti stato utile


  • User Attivo

    Per completare la risposta di Frederico, se non sbaglio, manca una stella

    User-agent: *
    Disallow: /cartella/?attachment_id=*

    Ma ricordati infatti che il file robots.txt non serve per dare direttive sull'indicizzazione, ma su l'esplorazione delle pagine. Stiamo dicendo a Google e altri, quale pagine/cartelle possano esplorare e quale non. Di conseguenza quando vieti l'accesso a una pagina non viene indicizzata, perché non conosciuta dagli spider. Ma una volta indicizzata, e troppo tardi per risolvere con il robots.txt, devi fare altro

    Chiedere a Google di toglierle dal indice tramite la search console (Google webmaster tools) come suggerito da Francesco mi sembra la soluzione migliore, bisogna comunque vedere di quante pagine si tratta, e se c'è un limite giornaliere per richiedere la rimozione url con la search console.

    Un altra alternativa e quella del meta robots sul codice delle pagine che intendi fare sparire da Google.

    <meta name="robots" content="noindex">

    Bisognerà comunque aspettare che Google ripassa su ciascuna di queste pagine, e vedendo il tipo di pagine di cui si tratta, non penso che il processo sarà veloce... almeno che non aiuti i spider a trovarle più in fretta (lo poi fare sempre tramite la Search Console).


  • Moderatore

    @walid said:

    Per completare la risposta di Frederico, se non sbaglio, manca una stella
    Per quanto non errato, un asterisco a fine direttiva è ignorato.

    Le due direttive

    Disallow: /cartella/?attachment_id=
    Disallow: /cartella/?attachment_id=*

    sono del tutto equivalenti
    Ref: https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
    "the trailing wildcard is ignored."

    Ciao


  • User Attivo

    @Federico Sasso said:

    Per quanto non errato, un asterisco a fine direttiva è ignorato.

    Le due direttive

    Disallow: /cartella/?attachment_id=
    Disallow: /cartella/?attachment_id=*

    sono del tutto equivalenti

    "the trailing wildcard is ignored."

    Ciao

    Scusa e Grazie Francesco per l'informazione 🙂


  • Moderatore

    @walid said:

    Scusa e Grazie Francesco per l'informazione 🙂
    Federico, prego 🙂


  • User Attivo

    Scusami. Grazie francesco