- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- file robots.txt lo spazio ci va?
-
file robots.txt lo spazio ci va?
Ciao,
Scusate la domanda per molti ovvia ma devo creare il file robots.txt per il mio sito e avrei 2 domandine semplici semplici:
- vorrei escludere la visualizzazione della pagina "super home.htm". Devo scrivere:
Disallow: /super home.htm
Oppure
Disallow: /super%20home.htm ?
- dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no? Se si, qualcuno saprebbe indicarmi la sintassi per favore?
Grazie,
Paolo.
-
@i2m4y said:
Ciao,
Scusate la domanda per molti ovvia ma devo creare il file robots.txt per il mio sito e avrei 2 domandine semplici semplici:
- vorrei escludere la visualizzazione della pagina "super home.htm". Devo scrivere:
Disallow: /super home.htm
Oppure
Disallow: /super%20home.htm ?
- dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no? Se si, qualcuno saprebbe indicarmi la sintassi per favore?
Grazie,
Paolo.non puoi rinominare la pag in super-home o super_home?
-
In verità non si tratta di sole pagine contenenti lo spazio, ma anche di una trentina di file .swf che non voglio far aspirare.
E' lunga modificarli tutti e ricaricarli, piuttosto li lascerei aspirare!
-
Qua mi sa che dobbiamo fare dei test paolo
Basta creare questi file swf anche vuoti e poi metterli nel robot. I file non ti servono e vediamo che fa lo spider.
-
Grazie Giorgio, dopo il weekend testerò.
Paolo
-
-
@i2m4y said:
Disallow: /super home.htm
Oppure
Disallow: /super%20home.htm
Credo che secondo le specifiche del w3 sul file robots.txt non sia accettato mettere spazi tra le parole. Perciò sembra corretta la seconda opzione.Provando a validare il robots.txt ottengo questo errore: You can't put more than one path in one line. You have to create multiple "Disallow" lines. If a file/directory name contains white spaces, substitute each space with "%20" (Example: /customer%20service.html).
Ho fatto un po di ricerche... Da [url=http://www.google.it/search?num=100&hl=it&c2coff=1&q=site%3Aquery.nytimes.com%2Fgst%2Fnytstore.html&btnG=Cerca&meta=]questa ricerca risultano presenti nel database di google numerosi url con il "%20" all'interno. Perciò è probabile che lo spider converta automaticamente lo spazio bianco con il %20 (come fa la maggioranza dei browser).
Ricorda che è considerato scorretto utilizzare url che contengono spazi vuoti (vedi la RFC 1738 che riguarda gli url).
In ogni caso, per sicurezza, si potrebbe fare un test comunque.
- dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no?
No.
Più che altro è possibile che lasciando lo spazio bianco tra le due parole lo spider consideri il file robots.txt come mal scritto e non lo consideri del tutto.
Lucas
- dopo l'elenco delle varie pagine o file o cartelle "disallowate" devo inserire un'istruzione per dire di procedere alla lettura di tutto il resto del contenuto del sito o no?
-
Lucas Grazie mille!!!
Sei stato molto gentile!!
Provvederò a modificare tutti i nomi file e pagine, visto che non voglio rischiare!!!Buon weekend.
Paolo.