- Home
- Categorie
- Digital Marketing
- Google Search Console e Altri Strumenti
- File robots.txt da posizionare non in root
-
File robots.txt da posizionare non in root
Buongiorno a tutti,
avrei questo problema: devo disattivare dall'indicizzazione un intero sito web, dominio di terzo livello xxx.miosito.it
Per svariati motivi non posso posizionare il file robots.txt nella radice del sito, posso posizionarlo in una cartella diversa? Se sì, come faccio a "dire" a google di andare a leggere il file txt nella posizione scelta?
Grazie mille in anticipo a chi mi risponderà!
-
Ciao Svany,
potresti modificare il tuo robots.txt principale e bloccare l'indicizzazione in tal modo:Disallow: /cartella-sottodominio/
In questo modo vai a bloccare tutta la cartella dove è racchiuso il contenuto del sottodominio
-
Grazie per la risposta, il dominio di terzo livello a cui mi riferisco non è montato in una sottocartella del sito principale (server apache), ma è un sito indipendente impostato su IIS, tramite proxy ARR che rimanda su un server tomcat
-
Ciao Svany,
@Svany said:
Per svariati motivi non posso posizionare il file robots.txt nella radice del sito, posso posizionarlo in una cartella diversa? Se sì, come faccio a "dire" a google di andare a leggere il file txt nella posizione scelta?
L'implementazione di Google è tollerante verso i redirect sul file robots.txt (in questo aderisce all'originale RFC del 1997).
La documentazione di Google lascia intendere sia possibile tenerlo altrove, impostando un opportuno redirect da /robots.txt alla nuova destinazione (es. /cartella/robots.txt)Eccoti il link e un'estratto della documentazione:
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt3xx (redirection)Redirects will generally be followed until a valid result can be found (or a loop is recognized). We will follow a limited number of redirect hops (RFC 1945 for HTTP/1.0 allows up to 5 hops) and then stop and treat it as a 404. Handling of robots.txt redirects to disallowed URLs is undefined and discouraged. Handling of logical redirects for the robots.txt file based on HTML content that returns 2xx (frames, JavaScript, or meta refresh-type redirects) is undefined and discouraged.
Non ho mai provato, vale un tentativo.Potresti anche adottare una soluzione alternativa:
**ritornare **in risposta a /robots.txt uno Status Code HTTP 503 ("Service unavailable"). Un motore di ricerca non indicizzerebbe il contenuto. Ti sconsiglio di ritornare un errore HTTP 500 generico perché Google (lo puoi leggere nella documentazione sopra link-ata) potrebbe interpretare come un 404 mal configurato e accedere comunque ai contenuti.Occhio (enfasi mia):
@Svany said:avrei questo problema: devo disattivare dall'indicizzazione un intero sito web, dominio di terzo livello xxx.miosito.it
Tieni conto che bloccare da robots.txt non necessariamente preclude l'indicizzazione, alcuni contenuti potrebbero essere indicizzati - almeno da Google - lo stesso qualora trovasse link sufficienti per ritenerla una risorsa potenzialmente importante da indicizzare (bloccare da robots.txt un sito temporaneo, esposto solo privatamente, etc.. è una pratica comune, anch'io lo faccio e non ho mai avuto problemi particolare se non quando il blocco da robots.txt è stato annullato da qualche tecnico distratto).Spero d'esserti stato utile