- Home
- Categorie
- Coding e Sistemistica
- PHP
- Script che quando passa lo spider di google manda una mail
-
Qua ho trovato alcune info utili... Non ho approfondito... appena aprirete la pagina capirete il perchè... :stordita:
Tradotta in italiano:
http://216.239.39.104/translate_c?hl=it&sl=en&u=http://www.google.com/bot.html&prev=/search%3Fq%3Dhttp://www.google.com/bot.html%26hl%3Dit%26lr%3D%26c2coff%3D1%26sa%3DGOriginale:
http://www.google.com/bot.html
-
Io ho fatto questo script per loggare in un file .txt il passaggio degli spider, può essere facilmente adattato per l'invio di una mail
<? $agents = array( "ultraseek" => "Infoseek", "sidewinder/" => "Infoseek", "ia_archiver" => "Alexa", "arianna.iol.it" => "Arianna", "ask jeeves" => "?", "fast-webcrawler/" => "Fast", "googlebot-" => "Google Immagini", "googlebot/" => "Google", "mercator-" => "Altavista", "scooter/" => "Altavista", "scooter-" => "Altavista", "arachnoidea" => "?", "yhaoo" => "Yahoo", "slurp" => "Inkomi", "gulliver/" => "NorthernLight", "lycos_spider_(t-rex)" => "Lycos", "architextspider" => "Excite", "libwww-perl/" => "Excite", "almaden.ibm.com" => "Ibm Resarch" ); $filename = "motori.txt"; $ua = $_SERVER["HTTP_USER_AGENT"]; $page = $_SERVER['PHP_SELF']; foreach ($agents as $ag => $motore) { //print date(" d-M-Y H:i ") . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"; if (strpos (strtolower (" " . $ua), $ag) > 0) { $fp = fopen($filename, "a"); if ($fp) { fwrite($fp, date(" d-M-Y H:i ") . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"); fclose($fp); break; } } } ?>
se volete aiutarmi a tenere aggiornati gli agents ve ne sono grato bye
-
Per me va benissimo.
webfil, possiamo fare un bel topic con tutta la lista degli spider nella sezione motori di ricerca
-
giorgio, piu tardi ti posto il mio..è una bomba!!
Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta
-
@Tuonorosso said:
giorgio, piu tardi ti posto il mio..è una bomba!!
Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta
-
pagina 1: <?php /* ------------------------------------------------------------ */ /* Spider-Sense */ /* Detects bot activity and alerts you to their presence */ /* By Shawn Raloff */ /* [url="http://www.side2.com"]http://www.side2.com */ /* ------------------------------------------------------------ */ /* ---------- You must set these variables ---------- */ $domain = "www.tuosito.it"; $email = "[email protected]"; /* ---------- No need to edit beyond this point ---------- */ $bot = $_SERVER['HTTP_USER_AGENT']; $page = $_SERVER['PHP_SELF']; /* ---------- Look for bots ---------- */ ini_set("sendmail_from",'[email protected]'); //mail("$email", "aaaa", "aaa"); $myFile = fopen("spider-sense.dat","r"); while(!feof($myFile)) { $myLine = chop(fgets($myFile, 255)); list($agent,$url) = split("[|]", $myLine); if( eregi($agent,$bot) ) { mail("$email", "$agent detected on $domain", "$agent has crawled $page on $domain"); } } fclose($myFile); //echo "[url='http://www.side2.com']Powered By Side2.com"; ?>
spider-sense.dat:
AbachoBOT|[url="http://www.abacho.com"]www.abacho.com abcdatos_botlink|[url="http://www.abcdatos.com"]www.abcdatos.com AESOP_com_SpiderMan|[url="http://www.aesop.com"]www.aesop.com ah-ha.com crawler|[url="http://www.ah-ha.com"]www.ah-ha.com ia_archiver|[url="http://www.alexa.com"]www.alexa.com Scooter|[url="http://www.altavista.com"]www.altavista.com AltaVista-Intranet|[url="http://www.altavista.co.uk"]www.altavista.co.uk FAST-WebCrawler|[url="http://www.alltheweb.com"]www.alltheweb.com Acoon Robot|[url="http://www.acoon.de"]www.acoon.de antibot|[url="http://www.antisearch.net"]www.antisearch.net Atomz|[url="http://www.atomz.com"]www.atomz.com Buscaplus Robi|[url="http://www.buscaplus.com"]www.buscaplus.com CanSeek|[url="http://www.canseek.ca"]www.canseek.ca ChristCRAWLER|[url="http://www.christcrawler.com"]www.christcrawler.com Crawler|[url="http://www.crawler.de"]www.crawler.de DaAdLe.com ROBOT|[url="http://www.daadle.com"]www.daadle.com RaBot|[url="http://www.daum.net"]www.daum.net DeepIndex|[url="http://www.en.deepindex.com"]www.en.deepindex.com DittoSpyder|[url="http://www.ditto.com"]www.ditto.com Jack|domanova.co.uk Speedy Spider|[url="http://www.entireweb.com"]www.entireweb.com ArchitextSpider|[url="http://www.excite.com"]www.excite.com Arachnoidea|[url="http://www.euroseek.net"]www.euroseek.net EZResult|[url="http://www.ezresults.com"]www.ezresults.com Fast PartnerSite Crawler|[url="http://www.fastsearch.net"]www.fastsearch.net KIT-Fireball|[url="http://www.fireball.de"]www.fireball.de FyberSearch|[url="http://www.fybersearch.com"]www.fybersearch.com GalaxyBot|[url="http://www.galaxy.com"]www.galaxy.com geckobot|[url="http://www.geckobot.com"]www.geckobot.com GenCrawler|[url="http://www.gendoor.com"]www.gendoor.com GeonaBot|[url="http://www.geona.com"]www.geona.com Googlebot|[url="http://www.google.com"]www.google.com Aranha|[url="http://www.girafa.com"]www.girafa.com Slurp|[url="http://www.inktomisearch.com"]www.inktomisearch.com Toutatis|hoppa.com Hubater|[url="http://www.hubat.com"]www.hubat.com IlTrovatore-Setaccio|[url="http://www.iltrovatore.it"]www.iltrovatore.it IncyWincy|[url="http://www.incywincy.com"]www.incywincy.com UltraSeek|[url="http://www.infoseek.com"]www.infoseek.com Mole2|[url="http://www.intags.de"]www.intags.de MP3Bot|mp3bot.de C-PBWF-ip3000.com-crawler|[url="http://www.ip3000.com"]www.ip3000.com kuloko-bot|[url="http://www.kuloko.com"]www.kuloko.com LNSpiderguy|[url="http://www.lexis-nexis.com"]www.lexis-nexis.com NetResearchServer|[url="http://www.look.com"]www.look.com MantraAgent|[url="http://www.looksmart.com"]www.looksmart.com NetResearchServer|[url="http://www.loopimprovements.com"]www.loopimprovements.com Lycos_Spider|[url="http://www.lycos.com"]www.lycos.com JoocerBot|[url="http://www.joocer.com"]www.joocer.com HenryTheMiragoRobot|[url="http://www.mirago.co.uk"]www.mirago.co.uk mozDex|[url="http://www.mozdex.com"]www.mozdex.com MSNBOT|search.msn.com Gulliver|[url="http://www.northernlight.com"]www.northernlight.com ObjectsSearch|[url="http://www.objectssearch.com"]www.objectssearch.com PicoSearch|[url="http://www.picosearch.com"]www.picosearch.com PJspider|[url="http://www.portaljuice.com"]www.portaljuice.com DIIbot|[url="http://www.powerinter.net"]www.powerinter.net nttdirectory_robot|navi.ocn.ne.jp NationalDirectory-SuperSpider|[url="http://www.nationaldirectory.com"]www.nationaldirectory.com Openfind piranha,Shark|[url="http://www.openfind.com"]www.openfind.com psbot|[url="http://www.picsearch.org"]www.picsearch.org CrawlerBoy Pinpoint.com|[url="http://www.pinpoint.com"]www.pinpoint.com AlkalineBOT|[url="http://www.vestris.com"]www.vestris.com Fluffy the spider|[url="http://www.searchhippo.com"]www.searchhippo.com Scrubby|[url="http://www.scrubtheweb.com"]www.scrubtheweb.com asterias|[url="http://www.singingfish.com"]www.singingfish.com Kototoi|[url="http://www.s.u-tokyo.ac.jp"]www.s.u-tokyo.ac.jp Searchspider|[url="http://www.searchspider.com"]www.searchspider.com SightQuestBot|[url="http://www.sightquest.com"]www.sightquest.com Spider_Monkey|[url="http://www.spidermonkey.ca"]www.spidermonkey.ca Surfnomore Spider|[url="http://www.surfnomore.com"]www.surfnomore.com [email][email protected][/email]|[url="http://www.supersnooper.com"]www.supersnooper.com teoma|[url="http://www.teoma.com"]www.teoma.com Teradex_Mapper|mapper.teradex.com ESISmartSpider|[url="http://www.travel-finder.com"]www.travel-finder.com Spider TraficDublu|[url="http://www.traficdublu.ro"]www.traficdublu.ro Tutorial Crawler|[url="http://www.tutorgig.com"]www.tutorgig.com UK Searcher Spider|[url="http://www.uksearcher.co.uk"]www.uksearcher.co.uk Vivante Link Checker|[url="http://www.vivante.com"]www.vivante.com appie|[url="http://www.walhello.com"]www.walhello.com Nazilla|[url="http://www.websmostlinked.com"]www.websmostlinked.com [url="http://www.WebWombat.com.au"]www.WebWombat.com.au|[url="http://www.webwombat.com.au"]www.webwombat.com.au marvininfoseek|[url="http://www.webseek.de"]www.webseek.de MuscatFerret|[url="http://www.webtop.com"]www.webtop.com WhizBang! Lab|[url="http://www.whizbanglabs.com"]www.whizbanglabs.com ZyBorg|[url="http://www.wisenut.com"]www.wisenut.com WIRE WebRefiner|[url="http://www.wire.co.uk"]www.wire.co.uk WSCbot|[url="http://www.worldsearchcenter.com"]www.worldsearchcenter.com Yandex|[url="http://www.yandex.com"]www.yandex.com Yellopet-Spider|[url="http://www.yellowpet.com"]www.yellowpet.com
-
Puoi aprire lo stesso in motori?
Ti do l'autorizzazione a farlo, visto che serve per far commentare e nel caso serve (non credo ) si può implementare.
-
k...
-
Io uso questo funziona perfettamente! Proprio oggi mi hanno visitato 4 pagine...e mi sono arrivate 4 email. Forse l'unica cosa che non va è proprio questo....le troppe email. Registrare il tutto in file di testo l'approvo al 100%!!! Però mi è sembrato sempre utile postare il codice che uso io....
<? if(eregi("googlebot",$HTTP_USER_AGENT)) { if ($QUERY_STRING != "") {$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;} else {$url = "http://".$SERVER_NAME.$PHP_SELF;} $today = date("F j, Y, g:i a"); mail("[email protected]", "Googlebot detected on http://$SERVER_NAME", "$today - Google crawled $url"); } ?>
-
Non so dove, ma tempo fa avevo visto un apposito Mod per phpbb che ti faceva inviare una email quando google passava per il forum.
Sapete dove lo posso ritrovare? E magari può esservi d'aiuto per determinare il codice che volete scrivere.
Fabio.
-
Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB.
-
@Sugnu Beddu said:
Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. Si ma non so dove inserirlo. Ci sono i file tpl ed i file php Avevo trovato il mod che in meno di 30 righe ti diceva che file modificare e come ma non lo ritrovo
Grazie.
-
Puoi inserirlo in alto....nei seguenti file:
-
index.php
-
viewforum.php
-
viewtopic.php
-
-
se lo metti nell'header fai prima e lo metti in un solo punto..
-
Ecco vedi, cosa succede se lo metto nel file overall_header.tpl?
Non c'è un file.php che compare in tutte le pagine?
Ciao e grazie.
-
@Tuonorosso said:
se lo metti nell'header fai prima e lo metti in un solo punto.. () Non svevo letto la tua risposta...
Che header? Nei file tpl il php non viene compilato
-
Ascolta me....mettili dove ti ho detto io prima che funziona!
Poi quando trovi un'altro metodo poi cambi...
-
vi sbagliate,
io ho messo tranquillamente del php alla fine dell'overall_footer.tplbasta mettere
<?php
il tuo script
?>
-
Mi ricordo che tempo fa provai a mettere del codice php in una pagina tpl, mi sembra proprio nell'overall_footer ma questo mi appariva non compilato. Comunque posso riprovare
Ma con il codice che hai messo tu, sugnu beddu, ti arriva una email per ogni pagina visitata?
Grazie.