• User Newbie

    file robot e sitemap in conflitto

    Ciao a tutti, mi sa che questo è il mio primo post qui.. Vi pongo subito la domanda, in pratica vorrei escludere dall'indicizzazione sui motori di ricerca le pagine del sito ad esclusione delle sole che indico nella sitemap...

    se nel file robots.txt inserisco la direttiva

    Disallow: /

    ma creo una sitemap in cui inserisco le pagine che voglio che vengano indicizzate, queste pagine vengono prese in considerazione oppure siccome nel robots c'è scritto di non seguire nessuna pagina all'interno del sito allora la sitemap non viene presa in considerazione?
    (in alternativa qualcuno può dirmi come posso fare per risolvere il problema?)

    grazie anticipatamente per la risposta


  • User Attivo

    Secondo lo standard per l'esclusione dai robot, puoi usare solo la direttiva disallow per bloccare pagine e directory.
    Non mi risulta esista per pagine e directory un comando allow, ossia consenti.
    Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.

    Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.


  • User Newbie

    qui
    support.google . com/webmasters/bin/answer.py?hl=it&answer=156449 la direttiva allow viene utilizzata ogni tanto, ma inserire un allow per ogni pagina che vorrei venisse indicizzata sarebbe in pratica come inserire la sitemap all'interno del file robots.txt (non il link della sitemap, ma ciascun link che dovrebbe stare dentro alla sitemap)...

    in ogni caso volevo anche sapere: se nel robots.txt inserisco una direttiva che dice di escludere tutte le pagine del sito, ma poi nella sitemap indico alcune pagine (non tutte), queste pagine che indico nella sitemap vengono prese in considerazione o no? chi è che comanda di più? il disallow del robots o la sitemap?


  • User Attivo

    Vince sempre la sitemap.
    Il file robots è concepito più per istruire i crawlers che accedono ciecamente al tuo sito senza consultare prima la sitemap, ma sono pochissimi.
    Quando inserisci una url nella sitemap stai chiaramente invitando lo spider ad accedere alla tua pagina.
    La sitemap.xml ha un autorità maggiore rispetto al file robots.txt.


  • Super User

    Ciao a The Anonymous e benvenuto su forum GT.

    Devo contraddire problemaPc, prevale il comando Disallow del robots.txt, in quanto la sitemap è solo un suggerimento.

    Io non metterei nulla nel robots.txt, aggiungendo invece alle pagine che non vuoi far indicizzare il metatag robots noindex,follow.


  • User Attivo

    Per il disallow prevale il robots, per l'allow alcuni crawlers non comprendono la direttiva e leggono la sitemap .. ad esempio Bing e Google non ragionano allo stesso modo.
    Anche sui caratteri jolly come l'asterisco ci sono problemi, ad esempio alcuni crawlers come GoogleBot capiscono l'asterisco, MSNBot (Bing per intenderci) non lo capisce.

    Scusami se sono stato poco chiaro precedentemente.


  • ModSenior

    @Webmaster70 said:

    Io non metterei nulla nel robots.txt, aggiungendo invece alle pagine che non vuoi far indicizzare il metatag robots noindex,follow.

    Sono d'accordo con Webmaster70, fate sempre attenzione all'uso del file robots.
    Per impedire l'indicizzazione meglio i metatag indicati su da Webmaster70.

    Valerio Notarfrancesco


  • Moderatore

    @The Anonymous said:

    in ogni caso volevo anche sapere: se nel robots.txt inserisco una direttiva che dice di escludere tutte le pagine del sito, ma poi nella sitemap indico alcune pagine (non tutte), queste pagine che indico nella sitemap vengono prese in considerazione o no? chi è che comanda di più? il disallow del robots o la sitemap?

    Se stiamo parlando dell'indicizzazione da parte di Google questi casi possono essere testati con l'utilizzo del webmaster tool.
    A me risulta che:

    • se un url è bloccato dal robots e presente nella sitemap, WMT segnala errori nella sitemap perchè ci sono url bloccati
    • con un esclusione di tutte le pagine dal robots, WMT segnala che nemmeno la sitemap è raggiungibile dal crawler

    Come ti hanno già consigliato potresti utilizzare il metatag robots sulle pagine che non vuoi far indicizzare.