- Home
- Categorie
- Digital Marketing
- Google Search Console e Altri Strumenti
- Stop ai spambot
-
Stop ai spambot
Come al solito mi auguro di aver azzeccato la sezione.
Questo codice da inserire sull'htaccess blocca alcuni spambot conosciuti, e motori che copiano contenuti (inclusi anche teleport pro etc etc)
Ho trovato la lista e ho corretto l'htaccess in modo che funzioni spulciando qua e là in giro per la rete.Secondo me può essere uno strumento indispensabile per i SEO/Webmasters.
Magari si potrebbe tenere aggiornato, io ancora non lo utilizzo, vorrei prima confrontarmi con altri esperti , non si sa mai qualche controindicazione o qualche "forbiden" di troppo.
Spero di aver fatto cosa utile
# User-Agents with no privileges (mostly spambots/spybots/offline downloaders that ignore robots.txt) RewriteCond %{HTTP_USER_AGENT} ^.*Whacker.*$ RewriteCond %{HTTP_USER_AGENT} ^EmailCollector RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon RewriteCond %{HTTP_USER_AGENT} ^EmailWolf RewriteCond %{HTTP_USER_AGENT} ^.*FileHound.*$ RewriteCond %{HTTP_USER_AGENT} ^.*TurnitinBot.*$ RewriteCond %{HTTP_USER_AGENT} ^.*JoBo.*$ RewriteCond %{HTTP_USER_AGENT} ^.*adressendeutschland.*$ RewriteCond %{REMOTE_ADDR} ^63\.148\.99\.2(2[4-9]|[3-4][0-9]|5[0-5])$ # Cyveillance spybot RewriteCond %{REMOTE_ADDR} ^12\.148\.196\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])$ # NameProtect spybot RewriteCond %{REMOTE_ADDR} ^12\.148\.209\.(19[2-9]|2[0-4][0-9]|25[0-5])$ # NameProtect spybot RewriteCond %{REMOTE_ADDR} ^64\.140\.49\.6([6-9])$ # Turnitin spybot RewriteCond %{HTTP_REFERER} iaea\.org # spambot RewriteCond %{HTTP_USER_AGENT} ^[A-Z]+$ # spambot RewriteCond %{HTTP_USER_AGENT} anarchie [NC,OR] # OD offline downloaders RewriteCond %{HTTP_USER_AGENT} Atomz # rude bot RewriteCond %{HTTP_USER_AGENT} cherry.?picker [NC,OR] # spambot RewriteCond %{HTTP_USER_AGENT} crescent [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} ^DA\ \d\.\d+ # OD RewriteCond %{HTTP_USER_AGENT} DTS\ Agent # OD RewriteCond %{HTTP_USER_AGENT} ^Download # OD RewriteCond %{HTTP_USER_AGENT} EasyDL/\d\.\d+ # OD RewriteCond %{HTTP_USER_AGENT} e?mail.?(collector|magnet|reaper|siphon|sweeper|harvest|collect|wolf) [NC,OR] # spambot RewriteCond %{HTTP_USER_AGENT} express [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} extractor [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request # OD RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} FlickBot # rude bot RewriteCond %{HTTP_USER_AGENT} FrontPage # stupid user trying to edit my site RewriteCond %{HTTP_USER_AGENT} getright [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} go.?zilla [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} efp@gmx\.net # rude bot RewriteCond %{HTTP_USER_AGENT} grabber [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} imagefetch # rude bot RewriteCond %{HTTP_USER_AGENT} httrack [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} Indy\ Library # spambot RewriteCond %{HTTP_USER_AGENT} ^Internet\ Explore # spambot RewriteCond %{HTTP_USER_AGENT} ^IE\ \d\.\d\ Compatible.*Browser$ # spambot RewriteCond %{HTTP_USER_AGENT} LINKS\ ARoMATIZED # rude bot RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control # spambot RewriteCond %{HTTP_USER_AGENT} mister\ pix [NC,OR] # rude bot RewriteCond %{HTTP_USER_AGENT} ^Mozilla/4.0$ # dumb bot RewriteCond %{HTTP_USER_AGENT} ^Mozilla/\?\?$ # formmail attacker RewriteCond %{HTTP_USER_AGENT} MSIECrawler # IE’s “make available offline” mode RewriteCond %{HTTP_USER_AGENT} ^NG # unknown bot RewriteCond %{HTTP_USER_AGENT} offline [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} net.?(ants|mechanic|spider|vampire|zip) [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} nicerspro [NC,OR] # spambot RewriteCond %{HTTP_USER_AGENT} ninja [NC,OR] # Download Ninja OD RewriteCond %{HTTP_USER_AGENT} NPBot # NameProtect spybot RewriteCond %{HTTP_USER_AGENT} PersonaPilot # rude bot RewriteCond %{HTTP_USER_AGENT} snagger [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} Sqworm # rude bot RewriteCond %{HTTP_USER_AGENT} SurveyBot # rude bot RewriteCond %{HTTP_USER_AGENT} tele(port|soft) [NC,OR] # OD RewriteCond %{HTTP_USER_AGENT} TurnitinBot # Turnitin spybot RewriteCond %{HTTP_USER_AGENT} web.?(auto|bandit|collector|copier|devil|downloader|fetch|hook|mole|miner|mirror|reaper|sauger|sucker|site|snake|stripper|weasel|zip) [NC,OR] # ODs RewriteCond %{HTTP_USER_AGENT} vayala # dumb bot, doesn’t know how to follow links, generates lots of 404s RewriteCond %{HTTP_USER_AGENT} zeus [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^NetSpider RewriteCond %{HTTP_USER_AGENT} ^NetZip RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer RewriteCond %{HTTP_USER_AGENT} ^PageGrabber RewriteCond %{HTTP_USER_AGENT} ^Reaper RewriteCond %{HTTP_USER_AGENT} ^Recorder RewriteCond %{HTTP_USER_AGENT} ^ReGet RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger RewriteCond %{HTTP_USER_AGENT} ^Stripper RewriteCond %{HTTP_USER_AGENT} ^Sucker RewriteCond %{HTTP_USER_AGENT} ^SuperBot RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP RewriteCond %{HTTP_USER_AGENT} ^Surfbot RewriteCond %{HTTP_USER_AGENT} ^tAkeOut RewriteCond %{HTTP_USER_AGENT} ^Teleport RewriteCond %{HTTP_USER_AGENT} ^Vacuum RewriteCond %{HTTP_USER_AGENT} ^VoidEYE RewriteCond %{HTTP_USER_AGENT} ^Web\Image\Collector RewriteCond %{HTTP_USER_AGENT} ^Web\Sucker RewriteCond %{HTTP_USER_AGENT} ^WebAuto RewriteCond %{HTTP_USER_AGENT} ^WebCopier RewriteCond %{HTTP_USER_AGENT} ^WebFetch RewriteCond %{HTTP_USER_AGENT} ^WebReaper RewriteCond %{HTTP_USER_AGENT} ^WebSauger RewriteCond %{HTTP_USER_AGENT} ^Website RewriteCond %{HTTP_USER_AGENT} ^Webster RewriteCond %{HTTP_USER_AGENT} ^WebStripper RewriteCond %{HTTP_USER_AGENT} ^WebWhacker RewriteCond %{HTTP_USER_AGENT} ^WebZIP RewriteCond %{HTTP_USER_AGENT} ^Wget RewriteCond %{HTTP_USER_AGENT} ^Whacker RewriteCond %{HTTP_USER_AGENT} ^Widow RewriteCond %{HTTP_USER_AGENT} ^Xaldon RewriteRule .* - [F,L]
notare frontpage... # stupid user trying to edit my site
-
mi sembra interessante. ma ci vuole qualcuno che lo testi
-
@Tambu said:
mi sembra interessante. ma ci vuole qualcuno che lo testi
Quindi non è stato mai testato??? se è così aspetto...
-
A funzionare funziona.....mi chideo solo se ci sia qualche esagerazione ( a me non pare) c'è qualche bot in piu mi chiedo? :d cioè qualche controindicazione...cosi giusto per non farci sfuggire niente.
Mi blocca solo quello, se no io lo avrei gia messo su
-
bene. lo sto utilizzando e funziona ottimamente, ho aggiunto un motore di ricerca cinese......sogou, un motore che rispetta il robots.txt...ma non mi interessa dare banda ad un bot cinese e aggiunti alcuni altri, come vedete le esigenze possono cambiare a seconda dei casi.
In allegato
-
Controllando le statistiche sul mio sito direi che alcuni di quei bot ci sono, ma secondo me ce ne sono altri:
Yahoo Search: 44% ( 1536 )
WinHttp.WinHttpRequest.5: 14% ( 493 )
Msn Search Bot: 14% ( 477 )
GoogleBot: 8% ( 274 )
IDBot: 3% ( 105 )
Heritrix: 3% ( 91 )
Technorati: 2% ( 87 )
Wordpress Pingback: 2% ( 72 )
BuzzTracker: 2% ( 54 )
Sogou Web Spider: 1% ( 47 )
Ask-Teoma: 1% ( 45 )
Twiceler: 1% ( 41 )
IRLBot: 1% ( 22 )
MQBOT: 1% ( 18 )
SeznamBot: 0% ( 15 )
Speedy Spider: 0% ( 14 )
Python-urllib: 0% ( 13 )
Sphere Scout: 0% ( 12 )
PicSearch Bot: 0% ( 11 )
Netcraft WebServer: 0% ( 10 )
Universal FeedParser: 0% ( 9 )
Alexa Web Search: 0% ( 9 )
boitho.com: 0% ( 5 )
SiteSell Robot: 0% ( 5 )
ICC-Crawler: 0% ( 4 )
Exabot: 0% ( 4 )
Baidu Spider: 0% ( 4 )
yodaoice: 0% ( 3 )
goo spider: 0% ( 3 )
Microsoft URL Control: 0% ( 3 )
Interseek: 0% ( 3 )
IIITBOT: 0% ( 3 )
Heeii: 0% ( 3 )
CFNetwork Spider: 0% ( 3 )
Feedreader: 0% ( 2 )
EmailSiphon: 0% ( 2 )
Axmorobot: 0% ( 2 )
yacybot: 0% ( 1 )
xMind: 0% ( 1 )
vBSEO: 0% ( 1 )
pythonic: 0% ( 1 )
hcat: 0% ( 1 )
cfetch: 0% ( 1 )
blogsearchbot: 0% ( 1 )
YodaoBot: 0% ( 1 )
Xenu Link Sleuth: 0% ( 1 )
Webdup: 0% ( 1 )
VoilaBot: 0% ( 1 )
VSynCrawler: 0% ( 1 )
StackRambler: 0% ( 1 )
Snoopy: 0% ( 1 )
ShopWiki: 0% ( 1 )
Pressemitteilung: 0% ( 1 )
Moreoverbot: 0% ( 1 )
Gigabot: 0% ( 1 )
FurlBot: 0% ( 1 )
Feedster: 0% ( 1 )
FangBot: 0% ( 1 )
Blogdimension: 0% ( 1 )
Advanced Email Extractor: 0% ( 1 )Ad ogni modo alcuni blocchi su alcuni useragent non mi convi convincono mlto, bloccare getright potrebbe non permettere il download di contennuti sul mio sito che io voglio far scaricare con quel download agent.
Guardando i nuovi user agent non definiti invece vedo che oltre al Mozilla 0.4, già definito nell'htacess, adesso ho alcune entrate anche da Mozilla 0.5, quindi andrebbe aggiunto anche quello credo.
Per altro avrei da segnalare anche delle entrate con useragent = a "Java"
-
ottima segnalazione.
riguardo alcuni blocchi, tipo getright, è chiaro che quello dipende dalle intenzioni dei webmaster.MAgari cerco di mettere un po di commenti in piu di modo che sia utilizzabile senza dubbi da piu persone possibili.
L'idea principale è stoppare sti siti con contenuti duplicati presi dal proprio, e poi tutto il contorno che potrebbe usare banda inutilmente.
ad esempio ci sono giorni che alcuni dei miei siti hanno 1500 e più bot in contemporanea ognuno che querizza alla velociza di una richiesta al secondo......finchè e google, yahoo e altri "trusted" ok.....ma il resto mi spiace, 403 fisso
-
xenu è un tool di analisi dei broken link
feedster non lo bloccherei, bisogna permettere agli user agent degli aggregatori di feed online di trovare i nostri contenuti. altrimenti ci chiudiamo in una scatola di vetro
-
bene, aggiorno con i commenti poi posto l'htaccess modificato appena abbiamo dei dettagli in piu