- Home
- Categorie
- La Community Connect.gt
- News Ufficiali da Connect.gt
- Controllo robot
-
Controllo robot
Il codice qui sotto riportato mostra semplicemente due righe contenute nel file error.log di Apache.
[Tue Oct 11 01:17:51 2005] [error] [client 66.249.66.8] File does not exist: /percorso/robots.txt [Tue Oct 11 12:52:16 2005] [error] [client 66.249.66.8] File does not exist: /percorso/robots.txt
Il client 66.249.66.8 (che forse risulta essere un robot comandato da google) ha cercato il file robots.txt e giustamente non lo ha trovato perchè io non ce l'ho questo file.
Indipendentemente se si vuole indicizzare oppure no il sito voi che pensate
E' consigliabile averlo questo file?
Ovviamente inserendo in esso le specifiche che noi desideriamo.
-
SI. è consigliabile avere il file Robots.txt anche se vuoto per evitare che allo spider il server risponda con File not found
-
calma, lo spider sta cercando il robots.txt in una directory differente dalla documentroot.
per quel che ne so io, il robots.txt va messo solo nella documentroot.quindi mi vengono in mente due possibilita':
- lo spider ha scazzato e basta
- quella directory e' la documentroot di un altro sito.
-
Si il percorso non l'ho scritto per praticità ma comunque il robot lo ha cercato lì nella document root
Mi chiedevo, nel caso di una scelta di NON indicizzazione, se è consigliabile avere un robots.txt (nella document root s'intende) di questo genere:
User-Agent: * Disallow: /
Oppure non averlo affatto il robots.txt
-
il **robots.txt **serve ad indicare agli spider quali directory **NON visionare **ed eventualmente bloccare user agent indesiderati
quindi se devi bloccare tutti gli spider il tuo codice va bene
dalle F.a.Q:
[url=http://www.giorgiotave.it/forum/viewtopic.php?p=15232#15232]robots.txt
-
@linus said:
Si il percorso non l'ho scritto per praticità ma comunque il robot lo ha cercato lì nella document root
io credevo che /percorso/ fosse il nome di una directory
-
Segnalo il [url=http://tool.motoricerca.info/analizzatore-robots.phtml]Tool analizzatore di Robots.txt
-
Non tutti i robot obbediscono alle regole contenute nel robots.txt anche se scritto in modo corretto. A questo proposito ho trovato qualche riga di codice da aggiungere al file di configurazione di Apache se desideriamo negare l'accesso ai robot. Le righe di configurazione sono le seguenti ma non so se corrette.
#Righe di configurazione in http.conf di Apache2 BrowserMatchNoCase .*crawler.* robot BrowserMatchNoCase .*robot.* robot SetEnvIf 66.249.66.8 .*google\.com robot <Location /not-indexable/> order allow,deny allow from all deny from env=robot </Location>
Da quello che ho intuito in questo modo si negerebbe l'accesso a tutti i robot ma in particolare a google; mi sbaglio?
-
li fai riferimento ad un solo ip (66.249.66.8) di google, ci sono diversi spider che visitano i siti