Il robot divora banda del server (Twiceler-0.9)

ceccus

Ciao,
se è un bot che scansiona (ma dubito) dovrebbe bastare il file robots.txt.

Io ho avuto un problema analogo, causato da qualcuno che si è tirato giù svariati giga di roba dal mio sito.

Qui trovi una possibile soluzione:

http://www.giorgiotave.it/forum/server/55411-aiuto-uregente-8gb-di-traffico-mezza-giornata.html

Ciao

seoluke

se vi può interessare questi sono gli ip del robot succhia banda

38.99.13.121
38.99.13.122
38.99.13.123
38.99.13.124
38.99.13.125
38.99.13.126
38.99.44.101
38.99.44.102
38.99.44.103
38.99.44.104
38.99.44.105
38.99.44.106
64.1.215.162
64.1.215.163
64.1.215.164
64.1.215.165
64.1.215.166
208.36.144.6
208.36.144.7
208.36.144.8
208.36.144.9
208.36.144.10

seoluke

@robaldo said:

secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?
non ho dati al momento visto che stiamo cercando e applicando oggi gli interventi necessari a limitare il consumo improprio di banda, vi saprò dire qualcosa nei prossimi giorni

seoluke

Sono sempre io Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

Ecco la loro risposta:

Dear,

Twiceler is the crawler that we are developing for our new

search engine. It is important to us that it obey robots.txt, and that it
not crawl sites that do not wish to be crawled. It would help us debug it
if you could send us some examples of its failing to obey your robots.txt.

Recently we have seen a number of crawlers masquerading as Twiceler, so

please check that the IP address of the crawler in question is one of ours.
You can see our IP addresses at http://cuill.com/twiceler/robot.html

You may wish to add a robots.txt file to your sites. 

Also be aware that changes to robots.txt take 24 to 48 hours to take

effect.

I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,

and I apologize for any inconvenience this has caused you.

Please feel free to contact me if you have any further questions.

Sincerely,

James Akers
Operations Engineer
Cuill, Inc.

robaldo

quindi gli IP coincidono.
Buono che ti hanno risposto, si dovrebbe risolvere con il robot.txt

moroandrea

Beh considera che Cuill sarà il nuovo antagonista di Google, fatto da ex gente Google ... quindi probabile che stiano lavorando tanto intensamente quanto intesi sono i test e i casini che stanno combinando

niubbo

mi so fatto un giro su cuill ma non ho capito,è un search engine come google,yahoo,live o è un'altra cosa?

moroandrea

Adesso è solo un motore in costruzione. In "corridoio" si parla di gennaio '08, ma credo che abbiano dei forti ritardi. Cmq dovrebbe essere un motore come Google, o a detta loro anche meglio.
Il tempo farà da testimone.

444523

@seoluke said:

Sono sempre io Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

Ecco la loro risposta:

Dear,

Twiceler is the crawler that we are developing for our new

search engine. It is important to us that it obey robots.txt, and that it
not crawl sites that do not wish to be crawled. It would help us debug it
if you could send us some examples of its failing to obey your robots.txt.

Recently we have seen a number of crawlers masquerading as Twiceler, so

please check that the IP address of the crawler in question is one of ours.
You can see our IP addresses at http://cuill.com/twiceler/robot.html

You may wish to add a robots.txt file to your sites. 

Also be aware that changes to robots.txt take 24 to 48 hours to take

effect.

I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,

and I apologize for any inconvenience this has caused you.

Please feel free to contact me if you have any further questions.

Sincerely,

James Akers
Operations Engineer
Cuill, Inc.

Molto interessante...
però si può agire anche sul Httpd.conf del VirtualHost per bloccare ip indigesti... qualcuno ha già provato?

agh

ho avuto e anzi ho ancora un problema analogo con lo spider di inktomi/yahoo, a un certo punto creava talmente tanti accessi che il provider mi ha segato il forum per traffico eccessivo

La prima volta ho risolto con il file robots.txt ma poi, non so perché, ha iniziato di nuovo (non ho toccato il file robots.txt) ed ho dovuto bloccare il range di iP.

Qualcuno mi ha detto che si può configurare il file robots.txt in modo che acceda per pochi secondi, ma non so se può essere una soluzione... attualmente il file robots.txt è

User-agent: slurp
Disallow: /

E' sufficiente? E perché non blocca più lo spider slurp come prima?