• Super User

    Bloccare pagine dinamiche con robots.txt

    Ciao a tutti.
    Sto ultimando un sito dove è possibile cambiare al volo il template del sito, quindi ci sono links che puntano a una ventina (per ora) di template diversi.
    Il template viene applicato a tutto il sito corrente.
    In questo modo temo però che Google scambi questa cosa come "contenuto dupicato"

    I link che cambiano il template sono una cosa del genere:

    www. sito .com/index.php?preview_theme=0123-nome-del-tema

    Posso fare in modo, tramite il robots.txt che tutti questi links (che portano agli stessi identici contenuti ma con una URL diversa) non vengano indicizzati?


  • Super User

    puoi mettere nel robots.txt una cosa del genere:

    User-Agent: *
    Disallow: /index.php?preview_theme


  • Super User

    ...mmm...:?
    Non sono del tutto sicuro, come lo scrivi tu credo che blocchi solo quell'indirizzo...
    Credo di aver risolto usando i caratteri Jolly così:

    User-agent: *
    Disallow: /index.php?preview_theme*
    
    

  • Super User

    Di base il robots.txt è come se avesse una wildcard (*) di default sui disallow

    Quindi se io metto un:

    Disallow: /index.php?preview_theme

    Bloccherà ad esempio:

    /index.php?preview_theme
    /index.php?preview_theme=1
    /index.php?preview_theme=b&test=a

    etc

    Mentre se io creo una regola come:

    Disallow: /index.php?preview_theme$

    bloccherò solo l'occorrenza:

    /index.php?preview_theme

    Un altro esempio più diretto, se io ad esempio metto:

    Disallow: /

    bloccherò tutto il sito e non solo la root, quindi a livello di regexp possiamo dire che è come se fosse una cosa tipo: /(.*)


  • Super User

    Ah ok, credevo che invece la wildacrd andasse sempre specificata...
    Grazie


  • User

    Ciao, ho messo il seguente robots nel mio sito:
    User-agent: *
    Disallow: /*?
    Per eliminare l'indicizzazione di tutti gli url dinamici.
    Dentro a webmaster tools di google trovo l'errore che il file robots sta bloccando delle pagine dinamiche importanti.
    E' normale, devo fregarmene?


    Ciao, ho messo il seguente robots nel mio sito:
    User-agent: *
    Disallow: /*?
    Per eliminare l'indicizzazione di tutti gli url dinamici.
    Dentro a webmaster tools di google trovo l'errore che il file robots sta bloccando delle pagine dinamiche importanti.
    E' normale, devo fregarmene?