Il robot divora banda del server (Twiceler-0.9)

seoluke

Il robot divora banda del server (Twiceler-0.9)

Salve ragazzi, sperando di non aver sbagliato la sezione in cui inserisco questo post, vi segnalo e vi chiedo aiuto per un "fenomeno paranormale".

Ho i miei clienti su un virtual server. La soluzione acquistata quasi 2 anni fa è ottima per caratteriste offerte e per un prezzo abbordabilissimo, ma carente per assistenza e per affidabilità del servizio. 2 mesi fa il virtual server ha incominciato a rallentarsi vistosamente e spesso è down. Ci è sembrato naturale bestemmiare il fornitore visti altri precedenti e alcune risposte davvero evasive o improbabili alle nostre domande disperate sul problema in questione.

Però ieri ho fatto una scoperta a mio modo di vedere sconcertante. Osservando attentamente le statistiche di Awstats di un mio cliente che ha circa 2000 utenti unici al mese, mi ha stupito il consumo di banda che questo sito produce negli ultimi tempi (non coerente con quello di tutti i 12 mesi precedenti). Nel mese di settembre 50gb di traffico visualizzato (derivante dai visitatori del sito) e quasi 200gb di traffico NON visualizzato (derivante da spider, robots e roba simile). Il trend è in linea anche nel mese di Ottobre. Questi dati degli ultimi 2 mesi sono circa 10 volte o più superiori ai mesi precedenti a Settembre.

Andando a spulciare nei log vari, ci siamo resi conto che questo robot Twiceler-0.9 ritorna a scandagliare le pagine del sito ogni 2/3 secondi,
producendomi nel mese di settembre circa 3.000.000 di accessi per un consumo di banda di più di 150gb. C'è un altro dato stranissimo, le statistiche mi riportano quasi 1.000.000 di pagine viste, roba improponibile per un sito che ha solo 2.000 visitatori unici.

Oltre che disabilitare l'accesso a questo spider dal file robots.txt o segnalare gli ip da cui proviene da bannare a chi mi fornisce il virtual server, cosa posso fare?
Alcuni di voi si sono trovati nella stessa situazione? E' ipotizzabile che questo robot sia se non il responsabile, ma almeno co-responsabile del generale rallentamento? Nel contratto non si parla di un limite di banda, ma deduco che uno ce ne sia per forza.

robaldo

secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?

ceccus

Ciao,
se è un bot che scansiona (ma dubito) dovrebbe bastare il file robots.txt.

Io ho avuto un problema analogo, causato da qualcuno che si è tirato giù svariati giga di roba dal mio sito.

Qui trovi una possibile soluzione:

http://www.giorgiotave.it/forum/server/55411-aiuto-uregente-8gb-di-traffico-mezza-giornata.html

Ciao

seoluke

se vi può interessare questi sono gli ip del robot succhia banda

38.99.13.121
38.99.13.122
38.99.13.123
38.99.13.124
38.99.13.125
38.99.13.126
38.99.44.101
38.99.44.102
38.99.44.103
38.99.44.104
38.99.44.105
38.99.44.106
64.1.215.162
64.1.215.163
64.1.215.164
64.1.215.165
64.1.215.166
208.36.144.6
208.36.144.7
208.36.144.8
208.36.144.9
208.36.144.10

seoluke

@robaldo said:

secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?
non ho dati al momento visto che stiamo cercando e applicando oggi gli interventi necessari a limitare il consumo improprio di banda, vi saprò dire qualcosa nei prossimi giorni

seoluke

Sono sempre io Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

Ecco la loro risposta:

Dear,

Twiceler is the crawler that we are developing for our new

search engine. It is important to us that it obey robots.txt, and that it
not crawl sites that do not wish to be crawled. It would help us debug it
if you could send us some examples of its failing to obey your robots.txt.

Recently we have seen a number of crawlers masquerading as Twiceler, so

please check that the IP address of the crawler in question is one of ours.
You can see our IP addresses at http://cuill.com/twiceler/robot.html

You may wish to add a robots.txt file to your sites. 

Also be aware that changes to robots.txt take 24 to 48 hours to take

effect.

I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,

and I apologize for any inconvenience this has caused you.

Please feel free to contact me if you have any further questions.

Sincerely,

James Akers
Operations Engineer
Cuill, Inc.

robaldo

quindi gli IP coincidono.
Buono che ti hanno risposto, si dovrebbe risolvere con il robot.txt

moroandrea

Beh considera che Cuill sarà il nuovo antagonista di Google, fatto da ex gente Google ... quindi probabile che stiano lavorando tanto intensamente quanto intesi sono i test e i casini che stanno combinando

niubbo

mi so fatto un giro su cuill ma non ho capito,è un search engine come google,yahoo,live o è un'altra cosa?

moroandrea

Adesso è solo un motore in costruzione. In "corridoio" si parla di gennaio '08, ma credo che abbiano dei forti ritardi. Cmq dovrebbe essere un motore come Google, o a detta loro anche meglio.
Il tempo farà da testimone.

444523

@seoluke said:

Sono sempre io Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

Ecco la loro risposta:

Dear,

Twiceler is the crawler that we are developing for our new

search engine. It is important to us that it obey robots.txt, and that it
not crawl sites that do not wish to be crawled. It would help us debug it
if you could send us some examples of its failing to obey your robots.txt.

Recently we have seen a number of crawlers masquerading as Twiceler, so

please check that the IP address of the crawler in question is one of ours.
You can see our IP addresses at http://cuill.com/twiceler/robot.html

You may wish to add a robots.txt file to your sites. 

Also be aware that changes to robots.txt take 24 to 48 hours to take

effect.

I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,

and I apologize for any inconvenience this has caused you.

Please feel free to contact me if you have any further questions.

Sincerely,

James Akers
Operations Engineer
Cuill, Inc.

Molto interessante...
però si può agire anche sul Httpd.conf del VirtualHost per bloccare ip indigesti... qualcuno ha già provato?

agh

ho avuto e anzi ho ancora un problema analogo con lo spider di inktomi/yahoo, a un certo punto creava talmente tanti accessi che il provider mi ha segato il forum per traffico eccessivo

La prima volta ho risolto con il file robots.txt ma poi, non so perché, ha iniziato di nuovo (non ho toccato il file robots.txt) ed ho dovuto bloccare il range di iP.

Qualcuno mi ha detto che si può configurare il file robots.txt in modo che acceda per pochi secondi, ma non so se può essere una soluzione... attualmente il file robots.txt è

User-agent: slurp
Disallow: /

E' sufficiente? E perché non blocca più lo spider slurp come prima?