Controllo robot

linus

Controllo robot

Il codice qui sotto riportato mostra semplicemente due righe contenute nel file error.log di Apache.

&#91;Tue Oct 11 01:17&#58;51 2005&#93; &#91;error&#93; &#91;client 66.249.66.8&#93; File does not exist&#58; /percorso/robots.txt
&#91;Tue Oct 11 12&#58;52&#58;16 2005&#93; &#91;error&#93; &#91;client 66.249.66.8&#93; File does not exist&#58; /percorso/robots.txt

Il client 66.249.66.8 (che forse risulta essere un robot comandato da google) ha cercato il file robots.txt e giustamente non lo ha trovato perchè io non ce l'ho questo file.
Indipendentemente se si vuole indicizzare oppure no il sito voi che pensate
E' consigliabile averlo questo file?
Ovviamente inserendo in esso le specifiche che noi desideriamo.

rinzi

SI. è consigliabile avere il file Robots.txt anche se vuoto per evitare che allo spider il server risponda con File not found

must

calma, lo spider sta cercando il robots.txt in una directory differente dalla documentroot.
per quel che ne so io, il robots.txt va messo solo nella documentroot.

quindi mi vengono in mente due possibilita':

lo spider ha scazzato e basta
quella directory e' la documentroot di un altro sito.

linus

Si il percorso non l'ho scritto per praticità ma comunque il robot lo ha cercato lì nella document root

Mi chiedevo, nel caso di una scelta di NON indicizzazione, se è consigliabile avere un robots.txt (nella document root s'intende) di questo genere:


User-Agent: *
Disallow&#58; /

Oppure non averlo affatto il robots.txt

rinzi

il **robots.txt **serve ad indicare agli spider quali directory **NON visionare **ed eventualmente bloccare user agent indesiderati

quindi se devi bloccare tutti gli spider il tuo codice va bene

dalle F.a.Q:
[url=http://www.giorgiotave.it/forum/viewtopic.php?p=15232#15232]robots.txt

must

@linus said:

Si il percorso non l'ho scritto per praticità ma comunque il robot lo ha cercato lì nella document root

io credevo che /percorso/ fosse il nome di una directory

giorgiotave

Segnalo il [url=http://tool.motoricerca.info/analizzatore-robots.phtml]Tool analizzatore di Robots.txt

linus

Non tutti i robot obbediscono alle regole contenute nel robots.txt anche se scritto in modo corretto. A questo proposito ho trovato qualche riga di codice da aggiungere al file di configurazione di Apache se desideriamo negare l'accesso ai robot. Le righe di configurazione sono le seguenti ma non so se corrette.

#Righe di configurazione in http.conf di Apache2

BrowserMatchNoCase .*crawler.* robot
BrowserMatchNoCase .*robot.* robot
SetEnvIf 66.249.66.8 .*google\.com robot

<Location /not-indexable/>
	order allow,deny
	allow from all
	deny from env=robot
</Location>

Da quello che ho intuito in questo modo si negerebbe l'accesso a tutti i robot ma in particolare a google; mi sbaglio?

rinzi

li fai riferimento ad un solo ip (66.249.66.8) di google, ci sono diversi spider che visitano i siti