• User

    Il robot divora banda del server (Twiceler-0.9)

    Salve ragazzi, sperando di non aver sbagliato la sezione in cui inserisco questo post, vi segnalo e vi chiedo aiuto per un "fenomeno paranormale".

    Ho i miei clienti su un virtual server. La soluzione acquistata quasi 2 anni fa è ottima per caratteriste offerte e per un prezzo abbordabilissimo, ma carente per assistenza e per affidabilità del servizio. 2 mesi fa il virtual server ha incominciato a rallentarsi vistosamente e spesso è down. Ci è sembrato naturale bestemmiare il fornitore visti altri precedenti e alcune risposte davvero evasive o improbabili alle nostre domande disperate sul problema in questione.

    Però ieri ho fatto una scoperta a mio modo di vedere sconcertante. Osservando attentamente le statistiche di Awstats di un mio cliente che ha circa 2000 utenti unici al mese, mi ha stupito il consumo di banda che questo sito produce negli ultimi tempi (non coerente con quello di tutti i 12 mesi precedenti). Nel mese di settembre 50gb di traffico visualizzato (derivante dai visitatori del sito) e quasi 200gb di traffico NON visualizzato (derivante da spider, robots e roba simile). 😮 Il trend è in linea anche nel mese di Ottobre. Questi dati degli ultimi 2 mesi sono circa 10 volte o più superiori ai mesi precedenti a Settembre.

    Andando a spulciare nei log vari, ci siamo resi conto che questo robot Twiceler-0.9 ritorna a scandagliare le pagine del sito ogni 2/3 secondi,
    producendomi nel mese di settembre circa 3.000.000 di accessi per un consumo di banda di più di 150gb. C'è un altro dato stranissimo, le statistiche mi riportano quasi 1.000.000 di pagine viste, roba improponibile per un sito che ha solo 2.000 visitatori unici.

    Oltre che disabilitare l'accesso a questo spider dal file robots.txt o segnalare gli ip da cui proviene da bannare a chi mi fornisce il virtual server, cosa posso fare?
    Alcuni di voi si sono trovati nella stessa situazione? E' ipotizzabile che questo robot sia se non il responsabile, ma almeno co-responsabile del generale rallentamento? Nel contratto non si parla di un limite di banda, ma deduco che uno ce ne sia per forza.


  • User Attivo

    secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?


  • User Attivo

    Ciao,
    se è un bot che scansiona (ma dubito) dovrebbe bastare il file robots.txt.

    Io ho avuto un problema analogo, causato da qualcuno che si è tirato giù svariati giga di roba dal mio sito.

    Qui trovi una possibile soluzione:

    http://www.giorgiotave.it/forum/server/55411-aiuto-uregente-8gb-di-traffico-mezza-giornata.html

    Ciao


  • User

    se vi può interessare questi sono gli ip del robot succhia banda

    38.99.13.121
    38.99.13.122
    38.99.13.123
    38.99.13.124
    38.99.13.125
    38.99.13.126
    38.99.44.101
    38.99.44.102
    38.99.44.103
    38.99.44.104
    38.99.44.105
    38.99.44.106
    64.1.215.162
    64.1.215.163
    64.1.215.164
    64.1.215.165
    64.1.215.166
    208.36.144.6
    208.36.144.7
    208.36.144.8
    208.36.144.9
    208.36.144.10


  • User

    @robaldo said:

    secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?
    non ho dati al momento visto che stiamo cercando e applicando oggi gli interventi necessari a limitare il consumo improprio di banda, vi saprò dire qualcosa nei prossimi giorni


  • User

    Sono sempre io 🙂 Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
    Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

    Ecco la loro risposta:

    Dear,

    Twiceler is the crawler that we are developing for our new
    

    search engine. It is important to us that it obey robots.txt, and that it
    not crawl sites that do not wish to be crawled. It would help us debug it
    if you could send us some examples of its failing to obey your robots.txt.

    Recently we have seen a number of crawlers masquerading as Twiceler, so
    

    please check that the IP address of the crawler in question is one of ours.
    You can see our IP addresses at http://cuill.com/twiceler/robot.html

    You may wish to add a robots.txt file to your sites. 
    
    Also be aware that changes to robots.txt take 24 to 48 hours to take
    

    effect.

    I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,
    

    and I apologize for any inconvenience this has caused you.

    Please feel free to contact me if you have any further questions.

    Sincerely,

    James Akers
    Operations Engineer
    Cuill, Inc.


  • User Attivo

    quindi gli IP coincidono.
    Buono che ti hanno risposto, si dovrebbe risolvere con il robot.txt


  • User Attivo

    Beh considera che Cuill sarà il nuovo antagonista di Google, fatto da ex gente Google ... quindi probabile che stiano lavorando tanto intensamente quanto intesi sono i test e i casini che stanno combinando 🙂


  • User Attivo

    mi so fatto un giro su cuill ma non ho capito,è un search engine come google,yahoo,live o è un'altra cosa?


  • User Attivo

    Adesso è solo un motore in costruzione. In "corridoio" si parla di gennaio '08, ma credo che abbiano dei forti ritardi. Cmq dovrebbe essere un motore come Google, o a detta loro anche meglio.
    Il tempo farà da testimone.


  • User Attivo

    @seoluke said:

    Sono sempre io 🙂 Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
    Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

    Ecco la loro risposta:

    Dear,

    Twiceler is the crawler that we are developing for our new
    

    search engine. It is important to us that it obey robots.txt, and that it
    not crawl sites that do not wish to be crawled. It would help us debug it
    if you could send us some examples of its failing to obey your robots.txt.

    Recently we have seen a number of crawlers masquerading as Twiceler, so
    

    please check that the IP address of the crawler in question is one of ours.
    You can see our IP addresses at http://cuill.com/twiceler/robot.html

    You may wish to add a robots.txt file to your sites. 
    
    Also be aware that changes to robots.txt take 24 to 48 hours to take
    

    effect.

    I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,
    

    and I apologize for any inconvenience this has caused you.

    Please feel free to contact me if you have any further questions.

    Sincerely,

    James Akers
    Operations Engineer
    Cuill, Inc.

    Molto interessante...
    però si può agire anche sul Httpd.conf del VirtualHost per bloccare ip indigesti... qualcuno ha già provato?


  • User Attivo

    ho avuto e anzi ho ancora un problema analogo con lo spider di inktomi/yahoo, a un certo punto creava talmente tanti accessi che il provider mi ha segato il forum per traffico eccessivo 😞

    La prima volta ho risolto con il file robots.txt ma poi, non so perché, ha iniziato di nuovo (non ho toccato il file robots.txt) ed ho dovuto bloccare il range di iP.

    Qualcuno mi ha detto che si può configurare il file robots.txt in modo che acceda per pochi secondi, ma non so se può essere una soluzione... attualmente il file robots.txt è

    User-agent: slurp
    Disallow: /

    E' sufficiente? E perché non blocca più lo spider slurp come prima?