- Home
- Categorie
- Coding e Sistemistica
- PHP
- Script che quando passa lo spider di google manda una mail
-
Io ho fatto questo script per loggare in un file .txt il passaggio degli spider, può essere facilmente adattato per l'invio di una mail
<? $agents = array( "ultraseek" => "Infoseek", "sidewinder/" => "Infoseek", "ia_archiver" => "Alexa", "arianna.iol.it" => "Arianna", "ask jeeves" => "?", "fast-webcrawler/" => "Fast", "googlebot-" => "Google Immagini", "googlebot/" => "Google", "mercator-" => "Altavista", "scooter/" => "Altavista", "scooter-" => "Altavista", "arachnoidea" => "?", "yhaoo" => "Yahoo", "slurp" => "Inkomi", "gulliver/" => "NorthernLight", "lycos_spider_(t-rex)" => "Lycos", "architextspider" => "Excite", "libwww-perl/" => "Excite", "almaden.ibm.com" => "Ibm Resarch" ); $filename = "motori.txt"; $ua = $_SERVER["HTTP_USER_AGENT"]; $page = $_SERVER['PHP_SELF']; foreach ($agents as $ag => $motore) { //print date(" d-M-Y H:i ") . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"; if (strpos (strtolower (" " . $ua), $ag) > 0) { $fp = fopen($filename, "a"); if ($fp) { fwrite($fp, date(" d-M-Y H:i ") . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"); fclose($fp); break; } } } ?>
se volete aiutarmi a tenere aggiornati gli agents ve ne sono grato bye
-
Per me va benissimo.
webfil, possiamo fare un bel topic con tutta la lista degli spider nella sezione motori di ricerca
-
giorgio, piu tardi ti posto il mio..è una bomba!!
Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta
-
@Tuonorosso said:
giorgio, piu tardi ti posto il mio..è una bomba!!
Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta
-
pagina 1: <?php /* ------------------------------------------------------------ */ /* Spider-Sense */ /* Detects bot activity and alerts you to their presence */ /* By Shawn Raloff */ /* [url="http://www.side2.com"]http://www.side2.com */ /* ------------------------------------------------------------ */ /* ---------- You must set these variables ---------- */ $domain = "www.tuosito.it"; $email = "[email protected]"; /* ---------- No need to edit beyond this point ---------- */ $bot = $_SERVER['HTTP_USER_AGENT']; $page = $_SERVER['PHP_SELF']; /* ---------- Look for bots ---------- */ ini_set("sendmail_from",'[email protected]'); //mail("$email", "aaaa", "aaa"); $myFile = fopen("spider-sense.dat","r"); while(!feof($myFile)) { $myLine = chop(fgets($myFile, 255)); list($agent,$url) = split("[|]", $myLine); if( eregi($agent,$bot) ) { mail("$email", "$agent detected on $domain", "$agent has crawled $page on $domain"); } } fclose($myFile); //echo "[url='http://www.side2.com']Powered By Side2.com"; ?>
spider-sense.dat:
AbachoBOT|[url="http://www.abacho.com"]www.abacho.com abcdatos_botlink|[url="http://www.abcdatos.com"]www.abcdatos.com AESOP_com_SpiderMan|[url="http://www.aesop.com"]www.aesop.com ah-ha.com crawler|[url="http://www.ah-ha.com"]www.ah-ha.com ia_archiver|[url="http://www.alexa.com"]www.alexa.com Scooter|[url="http://www.altavista.com"]www.altavista.com AltaVista-Intranet|[url="http://www.altavista.co.uk"]www.altavista.co.uk FAST-WebCrawler|[url="http://www.alltheweb.com"]www.alltheweb.com Acoon Robot|[url="http://www.acoon.de"]www.acoon.de antibot|[url="http://www.antisearch.net"]www.antisearch.net Atomz|[url="http://www.atomz.com"]www.atomz.com Buscaplus Robi|[url="http://www.buscaplus.com"]www.buscaplus.com CanSeek|[url="http://www.canseek.ca"]www.canseek.ca ChristCRAWLER|[url="http://www.christcrawler.com"]www.christcrawler.com Crawler|[url="http://www.crawler.de"]www.crawler.de DaAdLe.com ROBOT|[url="http://www.daadle.com"]www.daadle.com RaBot|[url="http://www.daum.net"]www.daum.net DeepIndex|[url="http://www.en.deepindex.com"]www.en.deepindex.com DittoSpyder|[url="http://www.ditto.com"]www.ditto.com Jack|domanova.co.uk Speedy Spider|[url="http://www.entireweb.com"]www.entireweb.com ArchitextSpider|[url="http://www.excite.com"]www.excite.com Arachnoidea|[url="http://www.euroseek.net"]www.euroseek.net EZResult|[url="http://www.ezresults.com"]www.ezresults.com Fast PartnerSite Crawler|[url="http://www.fastsearch.net"]www.fastsearch.net KIT-Fireball|[url="http://www.fireball.de"]www.fireball.de FyberSearch|[url="http://www.fybersearch.com"]www.fybersearch.com GalaxyBot|[url="http://www.galaxy.com"]www.galaxy.com geckobot|[url="http://www.geckobot.com"]www.geckobot.com GenCrawler|[url="http://www.gendoor.com"]www.gendoor.com GeonaBot|[url="http://www.geona.com"]www.geona.com Googlebot|[url="http://www.google.com"]www.google.com Aranha|[url="http://www.girafa.com"]www.girafa.com Slurp|[url="http://www.inktomisearch.com"]www.inktomisearch.com Toutatis|hoppa.com Hubater|[url="http://www.hubat.com"]www.hubat.com IlTrovatore-Setaccio|[url="http://www.iltrovatore.it"]www.iltrovatore.it IncyWincy|[url="http://www.incywincy.com"]www.incywincy.com UltraSeek|[url="http://www.infoseek.com"]www.infoseek.com Mole2|[url="http://www.intags.de"]www.intags.de MP3Bot|mp3bot.de C-PBWF-ip3000.com-crawler|[url="http://www.ip3000.com"]www.ip3000.com kuloko-bot|[url="http://www.kuloko.com"]www.kuloko.com LNSpiderguy|[url="http://www.lexis-nexis.com"]www.lexis-nexis.com NetResearchServer|[url="http://www.look.com"]www.look.com MantraAgent|[url="http://www.looksmart.com"]www.looksmart.com NetResearchServer|[url="http://www.loopimprovements.com"]www.loopimprovements.com Lycos_Spider|[url="http://www.lycos.com"]www.lycos.com JoocerBot|[url="http://www.joocer.com"]www.joocer.com HenryTheMiragoRobot|[url="http://www.mirago.co.uk"]www.mirago.co.uk mozDex|[url="http://www.mozdex.com"]www.mozdex.com MSNBOT|search.msn.com Gulliver|[url="http://www.northernlight.com"]www.northernlight.com ObjectsSearch|[url="http://www.objectssearch.com"]www.objectssearch.com PicoSearch|[url="http://www.picosearch.com"]www.picosearch.com PJspider|[url="http://www.portaljuice.com"]www.portaljuice.com DIIbot|[url="http://www.powerinter.net"]www.powerinter.net nttdirectory_robot|navi.ocn.ne.jp NationalDirectory-SuperSpider|[url="http://www.nationaldirectory.com"]www.nationaldirectory.com Openfind piranha,Shark|[url="http://www.openfind.com"]www.openfind.com psbot|[url="http://www.picsearch.org"]www.picsearch.org CrawlerBoy Pinpoint.com|[url="http://www.pinpoint.com"]www.pinpoint.com AlkalineBOT|[url="http://www.vestris.com"]www.vestris.com Fluffy the spider|[url="http://www.searchhippo.com"]www.searchhippo.com Scrubby|[url="http://www.scrubtheweb.com"]www.scrubtheweb.com asterias|[url="http://www.singingfish.com"]www.singingfish.com Kototoi|[url="http://www.s.u-tokyo.ac.jp"]www.s.u-tokyo.ac.jp Searchspider|[url="http://www.searchspider.com"]www.searchspider.com SightQuestBot|[url="http://www.sightquest.com"]www.sightquest.com Spider_Monkey|[url="http://www.spidermonkey.ca"]www.spidermonkey.ca Surfnomore Spider|[url="http://www.surfnomore.com"]www.surfnomore.com [email][email protected][/email]|[url="http://www.supersnooper.com"]www.supersnooper.com teoma|[url="http://www.teoma.com"]www.teoma.com Teradex_Mapper|mapper.teradex.com ESISmartSpider|[url="http://www.travel-finder.com"]www.travel-finder.com Spider TraficDublu|[url="http://www.traficdublu.ro"]www.traficdublu.ro Tutorial Crawler|[url="http://www.tutorgig.com"]www.tutorgig.com UK Searcher Spider|[url="http://www.uksearcher.co.uk"]www.uksearcher.co.uk Vivante Link Checker|[url="http://www.vivante.com"]www.vivante.com appie|[url="http://www.walhello.com"]www.walhello.com Nazilla|[url="http://www.websmostlinked.com"]www.websmostlinked.com [url="http://www.WebWombat.com.au"]www.WebWombat.com.au|[url="http://www.webwombat.com.au"]www.webwombat.com.au marvininfoseek|[url="http://www.webseek.de"]www.webseek.de MuscatFerret|[url="http://www.webtop.com"]www.webtop.com WhizBang! Lab|[url="http://www.whizbanglabs.com"]www.whizbanglabs.com ZyBorg|[url="http://www.wisenut.com"]www.wisenut.com WIRE WebRefiner|[url="http://www.wire.co.uk"]www.wire.co.uk WSCbot|[url="http://www.worldsearchcenter.com"]www.worldsearchcenter.com Yandex|[url="http://www.yandex.com"]www.yandex.com Yellopet-Spider|[url="http://www.yellowpet.com"]www.yellowpet.com
-
Puoi aprire lo stesso in motori?
Ti do l'autorizzazione a farlo, visto che serve per far commentare e nel caso serve (non credo ) si può implementare.
-
k...
-
Io uso questo funziona perfettamente! Proprio oggi mi hanno visitato 4 pagine...e mi sono arrivate 4 email. Forse l'unica cosa che non va è proprio questo....le troppe email. Registrare il tutto in file di testo l'approvo al 100%!!! Però mi è sembrato sempre utile postare il codice che uso io....
<? if(eregi("googlebot",$HTTP_USER_AGENT)) { if ($QUERY_STRING != "") {$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;} else {$url = "http://".$SERVER_NAME.$PHP_SELF;} $today = date("F j, Y, g:i a"); mail("[email protected]", "Googlebot detected on http://$SERVER_NAME", "$today - Google crawled $url"); } ?>
-
Non so dove, ma tempo fa avevo visto un apposito Mod per phpbb che ti faceva inviare una email quando google passava per il forum.
Sapete dove lo posso ritrovare? E magari può esservi d'aiuto per determinare il codice che volete scrivere.
Fabio.
-
Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB.
-
@Sugnu Beddu said:
Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. Si ma non so dove inserirlo. Ci sono i file tpl ed i file php Avevo trovato il mod che in meno di 30 righe ti diceva che file modificare e come ma non lo ritrovo
Grazie.
-
Puoi inserirlo in alto....nei seguenti file:
-
index.php
-
viewforum.php
-
viewtopic.php
-
-
se lo metti nell'header fai prima e lo metti in un solo punto..
-
Ecco vedi, cosa succede se lo metto nel file overall_header.tpl?
Non c'è un file.php che compare in tutte le pagine?
Ciao e grazie.
-
@Tuonorosso said:
se lo metti nell'header fai prima e lo metti in un solo punto.. () Non svevo letto la tua risposta...
Che header? Nei file tpl il php non viene compilato
-
Ascolta me....mettili dove ti ho detto io prima che funziona!
Poi quando trovi un'altro metodo poi cambi...
-
vi sbagliate,
io ho messo tranquillamente del php alla fine dell'overall_footer.tplbasta mettere
<?php
il tuo script
?>
-
Mi ricordo che tempo fa provai a mettere del codice php in una pagina tpl, mi sembra proprio nell'overall_footer ma questo mi appariva non compilato. Comunque posso riprovare
Ma con il codice che hai messo tu, sugnu beddu, ti arriva una email per ogni pagina visitata?
Grazie.
-
Wow, adesso mi sembra che il codice php inserito nel file tpl venga compilato. Beh aspetto le email del passaggio del googlebot.
Probabilmente l'altra volta non mi funzionavano perchè il codice php serviva per fare delle cose sul database
Se funziona, vi ringrazio. Ho usato il codice messo da sugnu beddu
-
Brrrravo!!
P.S. Ma che siti hai?...x curiosità.