• User Attivo

    Stop ai spambot

    Come al solito mi auguro di aver azzeccato la sezione.
    Questo codice da inserire sull'htaccess blocca alcuni spambot conosciuti, e motori che copiano contenuti (inclusi anche teleport pro etc etc)
    Ho trovato la lista e ho corretto l'htaccess in modo che funzioni spulciando qua e là in giro per la rete.

    Secondo me può essere uno strumento indispensabile per i SEO/Webmasters.

    Magari si potrebbe tenere aggiornato, io ancora non lo utilizzo, vorrei prima confrontarmi con altri esperti , non si sa mai qualche controindicazione o qualche "forbiden" di troppo.

    Spero di aver fatto cosa utile

    
    # User-Agents with no privileges (mostly spambots/spybots/offline downloaders that ignore robots.txt)
    RewriteCond %{HTTP_USER_AGENT} ^.*Whacker.*$ 
    RewriteCond %{HTTP_USER_AGENT} ^EmailCollector 
    RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon 
    RewriteCond %{HTTP_USER_AGENT} ^EmailWolf 
    RewriteCond %{HTTP_USER_AGENT} ^.*FileHound.*$ 
    RewriteCond %{HTTP_USER_AGENT} ^.*TurnitinBot.*$ 
    RewriteCond %{HTTP_USER_AGENT} ^.*JoBo.*$ 
    RewriteCond %{HTTP_USER_AGENT} ^.*adressendeutschland.*$ 
    RewriteCond %{REMOTE_ADDR} ^63\.148\.99\.2(2[4-9]|[3-4][0-9]|5[0-5])$ 
    # Cyveillance spybot
    RewriteCond %{REMOTE_ADDR} ^12\.148\.196\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])$ 
    # NameProtect spybot
    RewriteCond %{REMOTE_ADDR} ^12\.148\.209\.(19[2-9]|2[0-4][0-9]|25[0-5])$ 
    # NameProtect spybot
    RewriteCond %{REMOTE_ADDR} ^64\.140\.49\.6([6-9])$ 
    # Turnitin spybot
    RewriteCond %{HTTP_REFERER} iaea\.org 
    # spambot
    RewriteCond %{HTTP_USER_AGENT} ^[A-Z]+$ 
    # spambot
    RewriteCond %{HTTP_USER_AGENT} anarchie [NC,OR]
    # OD offline downloaders
    RewriteCond %{HTTP_USER_AGENT} Atomz 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} cherry.?picker [NC,OR]
    # spambot
    RewriteCond %{HTTP_USER_AGENT} crescent [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} ^DA\ \d\.\d+ 
    # OD
    RewriteCond %{HTTP_USER_AGENT} DTS\ Agent 
    # OD
    RewriteCond %{HTTP_USER_AGENT} ^Download 
    # OD
    RewriteCond %{HTTP_USER_AGENT} EasyDL/\d\.\d+ 
    # OD
    RewriteCond %{HTTP_USER_AGENT} e?mail.?(collector|magnet|reaper|siphon|sweeper|harvest|collect|wolf) [NC,OR]
    # spambot
    RewriteCond %{HTTP_USER_AGENT} express [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} extractor [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request 
    # OD
    RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} FlickBot 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} FrontPage 
    # stupid user trying to edit my site
    RewriteCond %{HTTP_USER_AGENT} getright [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} go.?zilla [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} efp@gmx\.net 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} grabber [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} imagefetch 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} httrack [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} Indy\ Library 
    # spambot
    RewriteCond %{HTTP_USER_AGENT} ^Internet\ Explore 
    # spambot
    RewriteCond %{HTTP_USER_AGENT} ^IE\ \d\.\d\ Compatible.*Browser$ 
    # spambot
    RewriteCond %{HTTP_USER_AGENT} LINKS\ ARoMATIZED 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control 
    # spambot
    RewriteCond %{HTTP_USER_AGENT} mister\ pix [NC,OR]
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} ^Mozilla/4.0$ 
    # dumb bot
    RewriteCond %{HTTP_USER_AGENT} ^Mozilla/\?\?$ 
    # formmail attacker
    RewriteCond %{HTTP_USER_AGENT} MSIECrawler 
    # IE’s “make available offline” mode
    RewriteCond %{HTTP_USER_AGENT} ^NG 
    # unknown bot
    RewriteCond %{HTTP_USER_AGENT} offline [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} net.?(ants|mechanic|spider|vampire|zip) [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} nicerspro [NC,OR]
    # spambot
    RewriteCond %{HTTP_USER_AGENT} ninja [NC,OR]
    # Download Ninja OD
    RewriteCond %{HTTP_USER_AGENT} NPBot 
    # NameProtect spybot
    RewriteCond %{HTTP_USER_AGENT} PersonaPilot 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} snagger [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} Sqworm 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} SurveyBot 
    # rude bot
    RewriteCond %{HTTP_USER_AGENT} tele(port|soft) [NC,OR]
    # OD
    RewriteCond %{HTTP_USER_AGENT} TurnitinBot 
    # Turnitin spybot
    RewriteCond %{HTTP_USER_AGENT} web.?(auto|bandit|collector|copier|devil|downloader|fetch|hook|mole|miner|mirror|reaper|sauger|sucker|site|snake|stripper|weasel|zip) [NC,OR]
    # ODs
    RewriteCond %{HTTP_USER_AGENT} vayala 
    # dumb bot, doesn’t know how to follow links, generates lots of 404s
    RewriteCond %{HTTP_USER_AGENT} zeus [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NetSpider 
    RewriteCond %{HTTP_USER_AGENT} ^NetZip 
    RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer 
    RewriteCond %{HTTP_USER_AGENT} ^PageGrabber 
    RewriteCond %{HTTP_USER_AGENT} ^Reaper 
    RewriteCond %{HTTP_USER_AGENT} ^Recorder 
    RewriteCond %{HTTP_USER_AGENT} ^ReGet 
    RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger 
    RewriteCond %{HTTP_USER_AGENT} ^Stripper 
    RewriteCond %{HTTP_USER_AGENT} ^Sucker 
    RewriteCond %{HTTP_USER_AGENT} ^SuperBot 
    RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP 
    RewriteCond %{HTTP_USER_AGENT} ^Surfbot 
    RewriteCond %{HTTP_USER_AGENT} ^tAkeOut 
    RewriteCond %{HTTP_USER_AGENT} ^Teleport 
    RewriteCond %{HTTP_USER_AGENT} ^Vacuum 
    RewriteCond %{HTTP_USER_AGENT} ^VoidEYE 
    RewriteCond %{HTTP_USER_AGENT} ^Web\Image\Collector 
    RewriteCond %{HTTP_USER_AGENT} ^Web\Sucker 
    RewriteCond %{HTTP_USER_AGENT} ^WebAuto 
    RewriteCond %{HTTP_USER_AGENT} ^WebCopier 
    RewriteCond %{HTTP_USER_AGENT} ^WebFetch 
    RewriteCond %{HTTP_USER_AGENT} ^WebReaper 
    RewriteCond %{HTTP_USER_AGENT} ^WebSauger 
    RewriteCond %{HTTP_USER_AGENT} ^Website 
    RewriteCond %{HTTP_USER_AGENT} ^Webster 
    RewriteCond %{HTTP_USER_AGENT} ^WebStripper 
    RewriteCond %{HTTP_USER_AGENT} ^WebWhacker 
    RewriteCond %{HTTP_USER_AGENT} ^WebZIP 
    RewriteCond %{HTTP_USER_AGENT} ^Wget 
    RewriteCond %{HTTP_USER_AGENT} ^Whacker 
    RewriteCond %{HTTP_USER_AGENT} ^Widow 
    RewriteCond %{HTTP_USER_AGENT} ^Xaldon
    RewriteRule .* - [F,L]
    
    

    notare frontpage... # stupid user trying to edit my site 😄


  • Super User

    mi sembra interessante. ma ci vuole qualcuno che lo testi 🙂


  • User Attivo

    @Tambu said:

    mi sembra interessante. ma ci vuole qualcuno che lo testi 🙂
    Quindi non è stato mai testato??? se è così aspetto...


  • User Attivo

    A funzionare funziona.....mi chideo solo se ci sia qualche esagerazione ( a me non pare) c'è qualche bot in piu mi chiedo? :d cioè qualche controindicazione...cosi giusto per non farci sfuggire niente.
    Mi blocca solo quello, se no io lo avrei gia messo su 😄


  • User Attivo

    bene. lo sto utilizzando e funziona ottimamente, ho aggiunto un motore di ricerca cinese......sogou, un motore che rispetta il robots.txt...ma non mi interessa dare banda ad un bot cinese e aggiunti alcuni altri, come vedete le esigenze possono cambiare a seconda dei casi.

    In allegato


  • Super User

    Controllando le statistiche sul mio sito direi che alcuni di quei bot ci sono, ma secondo me ce ne sono altri:

    Yahoo Search: 44% ( 1536 )
    WinHttp.WinHttpRequest.5: 14% ( 493 )
    Msn Search Bot: 14% ( 477 )
    GoogleBot: 8% ( 274 )
    IDBot: 3% ( 105 )
    Heritrix: 3% ( 91 )
    Technorati: 2% ( 87 )
    Wordpress Pingback: 2% ( 72 )
    BuzzTracker: 2% ( 54 )
    Sogou Web Spider: 1% ( 47 )
    Ask-Teoma: 1% ( 45 )
    Twiceler: 1% ( 41 )
    IRLBot: 1% ( 22 )
    MQBOT: 1% ( 18 )
    SeznamBot: 0% ( 15 )
    Speedy Spider: 0% ( 14 )
    Python-urllib: 0% ( 13 )
    Sphere Scout: 0% ( 12 )
    PicSearch Bot: 0% ( 11 )
    Netcraft WebServer: 0% ( 10 )
    Universal FeedParser: 0% ( 9 )
    Alexa Web Search: 0% ( 9 )
    boitho.com: 0% ( 5 )
    SiteSell Robot: 0% ( 5 )
    ICC-Crawler: 0% ( 4 )
    Exabot: 0% ( 4 )
    Baidu Spider: 0% ( 4 )
    yodaoice: 0% ( 3 )
    goo spider: 0% ( 3 )
    Microsoft URL Control: 0% ( 3 )
    Interseek: 0% ( 3 )
    IIITBOT: 0% ( 3 )
    Heeii: 0% ( 3 )
    CFNetwork Spider: 0% ( 3 )
    Feedreader: 0% ( 2 )
    EmailSiphon: 0% ( 2 )
    Axmorobot: 0% ( 2 )
    yacybot: 0% ( 1 )
    xMind: 0% ( 1 )
    vBSEO: 0% ( 1 )
    pythonic: 0% ( 1 )
    hcat: 0% ( 1 )
    cfetch: 0% ( 1 )
    blogsearchbot: 0% ( 1 )
    YodaoBot: 0% ( 1 )
    Xenu Link Sleuth: 0% ( 1 )
    Webdup: 0% ( 1 )
    VoilaBot: 0% ( 1 )
    VSynCrawler: 0% ( 1 )
    StackRambler: 0% ( 1 )
    Snoopy: 0% ( 1 )
    ShopWiki: 0% ( 1 )
    Pressemitteilung: 0% ( 1 )
    Moreoverbot: 0% ( 1 )
    Gigabot: 0% ( 1 )
    FurlBot: 0% ( 1 )
    Feedster: 0% ( 1 )
    FangBot: 0% ( 1 )
    Blogdimension: 0% ( 1 )
    Advanced Email Extractor: 0% ( 1 )

    Ad ogni modo alcuni blocchi su alcuni useragent non mi convi convincono mlto, bloccare getright potrebbe non permettere il download di contennuti sul mio sito che io voglio far scaricare con quel download agent.

    Guardando i nuovi user agent non definiti invece vedo che oltre al Mozilla 0.4, già definito nell'htacess, adesso ho alcune entrate anche da Mozilla 0.5, quindi andrebbe aggiunto anche quello credo.

    Per altro avrei da segnalare anche delle entrate con useragent = a "Java"


  • User Attivo

    ottima segnalazione.
    riguardo alcuni blocchi, tipo getright, è chiaro che quello dipende dalle intenzioni dei webmaster.

    MAgari cerco di mettere un po di commenti in piu di modo che sia utilizzabile senza dubbi da piu persone possibili.

    L'idea principale è stoppare sti siti con contenuti duplicati presi dal proprio, e poi tutto il contorno che potrebbe usare banda inutilmente.

    ad esempio ci sono giorni che alcuni dei miei siti hanno 1500 e più bot in contemporanea ognuno che querizza alla velociza di una richiesta al secondo......finchè e google, yahoo e altri "trusted" ok.....ma il resto mi spiace, 403 fisso 😉


  • Super User

    xenu è un tool di analisi dei broken link

    feedster non lo bloccherei, bisogna permettere agli user agent degli aggregatori di feed online di trovare i nostri contenuti. altrimenti ci chiudiamo in una scatola di vetro 🙂


  • User Attivo

    bene, aggiorno con i commenti poi posto l'htaccess modificato appena abbiamo dei dettagli in piu 😉