- Home
- Categorie
- Digital Marketing
- Posizionamento Nei Motori di Ricerca
- Come Rimuovere queste URL con Robots.txt?
-
Come Rimuovere queste URL con Robots.txt?
Vorrei disabilitare l'indicizzazione da parte di Google di queste URL dinamiche cosi strutturate:
cartella/?attachment_id=342
cartella/?attachment_id=648
cartella/?attachment_id=219
etc....nelle quali, in sostanza, cambia il valore numerico dopo il segno =
Qual'è l'istruzione che dovrei inserire nel file robots.txt?
Grazie anticipatamente per la collaborazione
-
Ciao alfa038,
@alfa038 said:
Vorrei disabilitare l'indicizzazione da parte di Google di queste URL dinamiche cosi strutturate:
cartella/?attachment_id=342
cartella/?attachment_id=648
cartella/?attachment_id=219
etc....nelle quali, in sostanza, cambia il valore numerico dopo il segno =
Qual'è l'istruzione che dovrei inserire nel file robots.txt?
Premesso che bloccare via robots.txt non è lo strumento per rimuovere degli URL già indicizzati (a meno che lo fai seguire alla rimozione manuale via Google Search Console), se vuoi bloccare tutti gli URL con tale forma per impedirne la visita da parte dei bot puoi scrivere semplicemente:Disallow: /cartella/?attachment_id=
Spero d'esserti stato utile
-
Per completare la risposta di Frederico, se non sbaglio, manca una stella
User-agent: *
Disallow: /cartella/?attachment_id=*Ma ricordati infatti che il file robots.txt non serve per dare direttive sull'indicizzazione, ma su l'esplorazione delle pagine. Stiamo dicendo a Google e altri, quale pagine/cartelle possano esplorare e quale non. Di conseguenza quando vieti l'accesso a una pagina non viene indicizzata, perché non conosciuta dagli spider. Ma una volta indicizzata, e troppo tardi per risolvere con il robots.txt, devi fare altro
Chiedere a Google di toglierle dal indice tramite la search console (Google webmaster tools) come suggerito da Francesco mi sembra la soluzione migliore, bisogna comunque vedere di quante pagine si tratta, e se c'è un limite giornaliere per richiedere la rimozione url con la search console.
Un altra alternativa e quella del meta robots sul codice delle pagine che intendi fare sparire da Google.
<meta name="robots" content="noindex">
Bisognerà comunque aspettare che Google ripassa su ciascuna di queste pagine, e vedendo il tipo di pagine di cui si tratta, non penso che il processo sarà veloce... almeno che non aiuti i spider a trovarle più in fretta (lo poi fare sempre tramite la Search Console).
-
@walid said:
Per completare la risposta di Frederico, se non sbaglio, manca una stella
Per quanto non errato, un asterisco a fine direttiva è ignorato.Le due direttive
Disallow: /cartella/?attachment_id=
Disallow: /cartella/?attachment_id=*sono del tutto equivalenti
Ref: https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
"the trailing wildcard is ignored."Ciao
-
@Federico Sasso said:
Per quanto non errato, un asterisco a fine direttiva è ignorato.
Le due direttive
Disallow: /cartella/?attachment_id=
Disallow: /cartella/?attachment_id=*sono del tutto equivalenti
"the trailing wildcard is ignored."
Ciao
Scusa e Grazie Francesco per l'informazione
-
@walid said:
Scusa e Grazie Francesco per l'informazione
Federico, prego
-
Scusami. Grazie francesco