• Super User

    file robots.txt lo spazio ci va?

    Ciao,

    Scusate la domanda per molti ovvia ma devo creare il file robots.txt per il mio sito e avrei 2 domandine semplici semplici:

    1. vorrei escludere la visualizzazione della pagina "super home.htm". Devo scrivere:

    Disallow: /super home.htm

    Oppure

    Disallow: /super%20home.htm ?

    1. dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no? Se si, qualcuno saprebbe indicarmi la sintassi per favore?

    Grazie,
    Paolo.


  • User Attivo

    @i2m4y said:

    Ciao,

    Scusate la domanda per molti ovvia ma devo creare il file robots.txt per il mio sito e avrei 2 domandine semplici semplici:

    1. vorrei escludere la visualizzazione della pagina "super home.htm". Devo scrivere:

    Disallow: /super home.htm

    Oppure

    Disallow: /super%20home.htm ?

    1. dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no? Se si, qualcuno saprebbe indicarmi la sintassi per favore?

    Grazie,
    Paolo.

    non puoi rinominare la pag in super-home o super_home?


  • Super User

    In verità non si tratta di sole pagine contenenti lo spazio, ma anche di una trentina di file .swf che non voglio far aspirare.

    E' lunga modificarli tutti e ricaricarli, piuttosto li lascerei aspirare!

    :mmm:


  • Community Manager

    Qua mi sa che dobbiamo fare dei test paolo

    Basta creare questi file swf anche vuoti e poi metterli nel robot. I file non ti servono e vediamo che fa lo spider.


  • Super User

    Grazie Giorgio, dopo il weekend testerò.

    Paolo


  • Community Manager

    @i2m4y said:

    Grazie Giorgio, dopo il weekend testerò.

    Paolo

    Ok Paolo tienici aggiornati 😉


  • User Attivo

    @i2m4y said:

    Disallow: /super home.htm
    Oppure
    Disallow: /super%20home.htm
    Credo che secondo le specifiche del w3 sul file robots.txt non sia accettato mettere spazi tra le parole. Perciò sembra corretta la seconda opzione.

    Provando a validare il robots.txt ottengo questo errore: You can't put more than one path in one line. You have to create multiple "Disallow" lines. If a file/directory name contains white spaces, substitute each space with "%20" (Example: /customer%20service.html).

    Ho fatto un po di ricerche... Da [url=http://www.google.it/search?num=100&hl=it&c2coff=1&q=site%3Aquery.nytimes.com%2Fgst%2Fnytstore.html&btnG=Cerca&meta=]questa ricerca risultano presenti nel database di google numerosi url con il "%20" all'interno. Perciò è probabile che lo spider converta automaticamente lo spazio bianco con il %20 (come fa la maggioranza dei browser).

    Ricorda che è considerato scorretto utilizzare url che contengono spazi vuoti (vedi la RFC 1738 che riguarda gli url).

    In ogni caso, per sicurezza, si potrebbe fare un test comunque. 🙂

    1. dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no?
      No.
      Più che altro è possibile che lasciando lo spazio bianco tra le due parole lo spider consideri il file robots.txt come mal scritto e non lo consideri del tutto.

    Lucas 🙂


  • Super User

    Lucas Grazie mille!!!

    Sei stato molto gentile!!
    Provvederò a modificare tutti i nomi file e pagine, visto che non voglio rischiare!!!

    Buon weekend.

    Paolo.