• User Attivo

    [OT] Robots.txt

    Salve,

    Scusate per l' OT ma non sapevo dove postare. Spero che i moderatori possano spostare la discussione in una parte più appropriata.

    Volevo chiedere due cose a riguardo del robots.txt:
    (so che possono sembrare domande banali, predonatemi, sono alle prime armi)

    1.Quando è che un webmaster ha necessità di fare in modo che alcuni spider (oppure tutti) non visitino alcune pagine. Vorrei alcuni esempi.

    1. Ho inviato la sitempa a Google. Ha indicizzato le pagine A B C e D.
      Adesso vorrei che Google non vedesse più D (quindi veda solo A B e C).
      Domanda: E' sufficiente inserire nel robots.txt il disallow per quella pagina oppure devo togliere (anche?) il link (D) dalla sitemap ?

    Grazie


  • Moderatore

    @sirelancillotto said:

    Salve,

    Scusate per l' OT ma non sapevo dove postare. Spero che i moderatori possano spostare la discussione in una parte più appropriata.

    Volevo chiedere due cose a riguardo del robots.txt:
    (so che possono sembrare domande banali, predonatemi, sono alle prime armi)

    1.Quando è che un webmaster ha necessità di fare in modo che alcuni spider (oppure tutti) non visitino alcune pagine. Vorrei alcuni esempi.

    1. Ho inviato la sitempa a Google. Ha indicizzato le pagine A B C e D.
      Adesso vorrei che Google non vedesse più D (quindi veda solo A B e C).
      Domanda: E' sufficiente inserire nel robots.txt il disallow per quella pagina oppure devo togliere (anche?) il link (D) dalla sitemap ?

    Grazie

    1. Un esempio classico sono le pagine accessibili solo agli amministratori o a mmembri registrati, ma spesso si usano per evitare il rischio di pagine duplicate.

    2. Se la blocchi nel robots.txt e poi la pubblichi nella sitemaps google non la indicizzerà ma rileverà anche un errore (giustamente) nella tua sitemap. Per cui se blocchi una pagina devi anche toglierla dalla sitemap.


  • User Attivo

    Grazie per la risposta,

    non ho capito la risposta 1 ("...ma spesso si usano per evitare il rischio di pagine duplicate.")

    Ciao:ciauz:


  • Moderatore

    A volte i plugin dei cms che riscrivono le url contengono dei bug e creano pagine duplicate, in quei casi se non si può mettere mano al codice per rimediare le si bloccano col robots.txt


  • User Attivo

    Grazie! :ciauz: