• User Attivo

    secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?


  • User Attivo

    Ciao,
    se è un bot che scansiona (ma dubito) dovrebbe bastare il file robots.txt.

    Io ho avuto un problema analogo, causato da qualcuno che si è tirato giù svariati giga di roba dal mio sito.

    Qui trovi una possibile soluzione:

    http://www.giorgiotave.it/forum/server/55411-aiuto-uregente-8gb-di-traffico-mezza-giornata.html

    Ciao


  • User

    se vi può interessare questi sono gli ip del robot succhia banda

    38.99.13.121
    38.99.13.122
    38.99.13.123
    38.99.13.124
    38.99.13.125
    38.99.13.126
    38.99.44.101
    38.99.44.102
    38.99.44.103
    38.99.44.104
    38.99.44.105
    38.99.44.106
    64.1.215.162
    64.1.215.163
    64.1.215.164
    64.1.215.165
    64.1.215.166
    208.36.144.6
    208.36.144.7
    208.36.144.8
    208.36.144.9
    208.36.144.10


  • User

    @robaldo said:

    secondo me dovrebbe bastare: hai notato cali di accessi da parte di questo bot?
    non ho dati al momento visto che stiamo cercando e applicando oggi gli interventi necessari a limitare il consumo improprio di banda, vi saprò dire qualcosa nei prossimi giorni


  • User

    Sono sempre io 🙂 Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
    Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

    Ecco la loro risposta:

    Dear,

    Twiceler is the crawler that we are developing for our new
    

    search engine. It is important to us that it obey robots.txt, and that it
    not crawl sites that do not wish to be crawled. It would help us debug it
    if you could send us some examples of its failing to obey your robots.txt.

    Recently we have seen a number of crawlers masquerading as Twiceler, so
    

    please check that the IP address of the crawler in question is one of ours.
    You can see our IP addresses at http://cuill.com/twiceler/robot.html

    You may wish to add a robots.txt file to your sites. 
    
    Also be aware that changes to robots.txt take 24 to 48 hours to take
    

    effect.

    I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,
    

    and I apologize for any inconvenience this has caused you.

    Please feel free to contact me if you have any further questions.

    Sincerely,

    James Akers
    Operations Engineer
    Cuill, Inc.


  • User Attivo

    quindi gli IP coincidono.
    Buono che ti hanno risposto, si dovrebbe risolvere con il robot.txt


  • User Attivo

    Beh considera che Cuill sarà il nuovo antagonista di Google, fatto da ex gente Google ... quindi probabile che stiano lavorando tanto intensamente quanto intesi sono i test e i casini che stanno combinando 🙂


  • User Attivo

    mi so fatto un giro su cuill ma non ho capito,è un search engine come google,yahoo,live o è un'altra cosa?


  • User Attivo

    Adesso è solo un motore in costruzione. In "corridoio" si parla di gennaio '08, ma credo che abbiano dei forti ritardi. Cmq dovrebbe essere un motore come Google, o a detta loro anche meglio.
    Il tempo farà da testimone.


  • User Attivo

    @seoluke said:

    Sono sempre io 🙂 Vi tengo aggiornati magari questa mia esperienza può essere utile a qualcun'altro.
    Ho escluso il robot tramite il file robots.txt, ho chiesto a chi mi gestisce il virtual server di bannare gli ip che vi ho indicato e alla fine ho scritto direttamente a chi ha creato il succitato robot chiedendogli (assieme a qualche velata bestemmia) di escludere gli ip dei miei virtual server dalle ricerche del robot. spero di aver risolto, magari nei prossimi giorni, appena avrò dei dati, vi dirò se l'uso della banda si è ridimensionato a livelli normali.

    Ecco la loro risposta:

    Dear,

    Twiceler is the crawler that we are developing for our new
    

    search engine. It is important to us that it obey robots.txt, and that it
    not crawl sites that do not wish to be crawled. It would help us debug it
    if you could send us some examples of its failing to obey your robots.txt.

    Recently we have seen a number of crawlers masquerading as Twiceler, so
    

    please check that the IP address of the crawler in question is one of ours.
    You can see our IP addresses at http://cuill.com/twiceler/robot.html

    You may wish to add a robots.txt file to your sites. 
    
    Also be aware that changes to robots.txt take 24 to 48 hours to take
    

    effect.

    I have added xx.xxx.xxx.xx and xx.xxx.xxx.xx to our list of IPs to exclude,
    

    and I apologize for any inconvenience this has caused you.

    Please feel free to contact me if you have any further questions.

    Sincerely,

    James Akers
    Operations Engineer
    Cuill, Inc.

    Molto interessante...
    però si può agire anche sul Httpd.conf del VirtualHost per bloccare ip indigesti... qualcuno ha già provato?


  • User Attivo

    ho avuto e anzi ho ancora un problema analogo con lo spider di inktomi/yahoo, a un certo punto creava talmente tanti accessi che il provider mi ha segato il forum per traffico eccessivo 😞

    La prima volta ho risolto con il file robots.txt ma poi, non so perché, ha iniziato di nuovo (non ho toccato il file robots.txt) ed ho dovuto bloccare il range di iP.

    Qualcuno mi ha detto che si può configurare il file robots.txt in modo che acceda per pochi secondi, ma non so se può essere una soluzione... attualmente il file robots.txt è

    User-agent: slurp
    Disallow: /

    E' sufficiente? E perché non blocca più lo spider slurp come prima?