- Home
- Categorie
- Coding e Sistemistica
- PHP
- Script che quando passa lo spider di google manda una mail
-
Non sono esperto di spider, conosco ben poco.
Proviamo quello di Pater?
-
io non so neanche cosa è lo spider...
stavo pensando che secondo il ragionamento, che dice che ogni computer connesso ad internet è fornito di un IP dal provider al momento della connessione, quando il programma spider di google passa dal tuo sito, deve avere l'ip del suo pc, ovvero quello di google. Facendo gli opportuni controlli, è possibile sapere se un utente od un programma sul pc del server di google sta passando per il tuo sito
-
guarda se funziona questo script doveva funzionare anche quello che avevo postato per togliere le sessioni da phpbb (la condizione dell'if è la stessa). Però quello continua tuttora a non funzionare.. :bho:
-
@oronzo_canà said:
guarda se funziona questo script doveva funzionare anche quello che avevo postato per togliere le sessioni da phpbb (la condizione dell'if è la stessa). Però quello continua tuttora a non funzionare.. :bho:
Strano, ora chiedo uno per il cloaking ma la funzione e la stessa :bho:
-
@oronzo_canà said:
guarda se funziona questo script doveva funzionare anche quello che avevo postato per togliere le sessioni da phpbb (la condizione dell'if è la stessa). Però quello continua tuttora a non funzionare.. :bho:mmm...
non so... in effetti è possibile che google utilizzi un router per gestire un'altro pc, che esegue lo spider... ma l'IP dovrebbe essere comunque lo stesso
-
Qua ho trovato alcune info utili... Non ho approfondito... appena aprirete la pagina capirete il perchè... :stordita:
Tradotta in italiano:
http://216.239.39.104/translate_c?hl=it&sl=en&u=http://www.google.com/bot.html&prev=/search%3Fq%3Dhttp://www.google.com/bot.html%26hl%3Dit%26lr%3D%26c2coff%3D1%26sa%3DGOriginale:
http://www.google.com/bot.html
-
Io ho fatto questo script per loggare in un file .txt il passaggio degli spider, può essere facilmente adattato per l'invio di una mail
<? $agents = array( "ultraseek" => "Infoseek", "sidewinder/" => "Infoseek", "ia_archiver" => "Alexa", "arianna.iol.it" => "Arianna", "ask jeeves" => "?", "fast-webcrawler/" => "Fast", "googlebot-" => "Google Immagini", "googlebot/" => "Google", "mercator-" => "Altavista", "scooter/" => "Altavista", "scooter-" => "Altavista", "arachnoidea" => "?", "yhaoo" => "Yahoo", "slurp" => "Inkomi", "gulliver/" => "NorthernLight", "lycos_spider_(t-rex)" => "Lycos", "architextspider" => "Excite", "libwww-perl/" => "Excite", "almaden.ibm.com" => "Ibm Resarch" ); $filename = "motori.txt"; $ua = $_SERVER["HTTP_USER_AGENT"]; $page = $_SERVER['PHP_SELF']; foreach ($agents as $ag => $motore) { //print date(" d-M-Y H:i ") . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"; if (strpos (strtolower (" " . $ua), $ag) > 0) { $fp = fopen($filename, "a"); if ($fp) { fwrite($fp, date(" d-M-Y H:i ") . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"); fclose($fp); break; } } } ?>
se volete aiutarmi a tenere aggiornati gli agents ve ne sono grato bye
-
Per me va benissimo.
webfil, possiamo fare un bel topic con tutta la lista degli spider nella sezione motori di ricerca
-
giorgio, piu tardi ti posto il mio..è una bomba!!
Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta
-
@Tuonorosso said:
giorgio, piu tardi ti posto il mio..è una bomba!!
Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta
-
pagina 1: <?php /* ------------------------------------------------------------ */ /* Spider-Sense */ /* Detects bot activity and alerts you to their presence */ /* By Shawn Raloff */ /* [url="http://www.side2.com"]http://www.side2.com */ /* ------------------------------------------------------------ */ /* ---------- You must set these variables ---------- */ $domain = "www.tuosito.it"; $email = "[email protected]"; /* ---------- No need to edit beyond this point ---------- */ $bot = $_SERVER['HTTP_USER_AGENT']; $page = $_SERVER['PHP_SELF']; /* ---------- Look for bots ---------- */ ini_set("sendmail_from",'[email protected]'); //mail("$email", "aaaa", "aaa"); $myFile = fopen("spider-sense.dat","r"); while(!feof($myFile)) { $myLine = chop(fgets($myFile, 255)); list($agent,$url) = split("[|]", $myLine); if( eregi($agent,$bot) ) { mail("$email", "$agent detected on $domain", "$agent has crawled $page on $domain"); } } fclose($myFile); //echo "[url='http://www.side2.com']Powered By Side2.com"; ?>
spider-sense.dat:
AbachoBOT|[url="http://www.abacho.com"]www.abacho.com abcdatos_botlink|[url="http://www.abcdatos.com"]www.abcdatos.com AESOP_com_SpiderMan|[url="http://www.aesop.com"]www.aesop.com ah-ha.com crawler|[url="http://www.ah-ha.com"]www.ah-ha.com ia_archiver|[url="http://www.alexa.com"]www.alexa.com Scooter|[url="http://www.altavista.com"]www.altavista.com AltaVista-Intranet|[url="http://www.altavista.co.uk"]www.altavista.co.uk FAST-WebCrawler|[url="http://www.alltheweb.com"]www.alltheweb.com Acoon Robot|[url="http://www.acoon.de"]www.acoon.de antibot|[url="http://www.antisearch.net"]www.antisearch.net Atomz|[url="http://www.atomz.com"]www.atomz.com Buscaplus Robi|[url="http://www.buscaplus.com"]www.buscaplus.com CanSeek|[url="http://www.canseek.ca"]www.canseek.ca ChristCRAWLER|[url="http://www.christcrawler.com"]www.christcrawler.com Crawler|[url="http://www.crawler.de"]www.crawler.de DaAdLe.com ROBOT|[url="http://www.daadle.com"]www.daadle.com RaBot|[url="http://www.daum.net"]www.daum.net DeepIndex|[url="http://www.en.deepindex.com"]www.en.deepindex.com DittoSpyder|[url="http://www.ditto.com"]www.ditto.com Jack|domanova.co.uk Speedy Spider|[url="http://www.entireweb.com"]www.entireweb.com ArchitextSpider|[url="http://www.excite.com"]www.excite.com Arachnoidea|[url="http://www.euroseek.net"]www.euroseek.net EZResult|[url="http://www.ezresults.com"]www.ezresults.com Fast PartnerSite Crawler|[url="http://www.fastsearch.net"]www.fastsearch.net KIT-Fireball|[url="http://www.fireball.de"]www.fireball.de FyberSearch|[url="http://www.fybersearch.com"]www.fybersearch.com GalaxyBot|[url="http://www.galaxy.com"]www.galaxy.com geckobot|[url="http://www.geckobot.com"]www.geckobot.com GenCrawler|[url="http://www.gendoor.com"]www.gendoor.com GeonaBot|[url="http://www.geona.com"]www.geona.com Googlebot|[url="http://www.google.com"]www.google.com Aranha|[url="http://www.girafa.com"]www.girafa.com Slurp|[url="http://www.inktomisearch.com"]www.inktomisearch.com Toutatis|hoppa.com Hubater|[url="http://www.hubat.com"]www.hubat.com IlTrovatore-Setaccio|[url="http://www.iltrovatore.it"]www.iltrovatore.it IncyWincy|[url="http://www.incywincy.com"]www.incywincy.com UltraSeek|[url="http://www.infoseek.com"]www.infoseek.com Mole2|[url="http://www.intags.de"]www.intags.de MP3Bot|mp3bot.de C-PBWF-ip3000.com-crawler|[url="http://www.ip3000.com"]www.ip3000.com kuloko-bot|[url="http://www.kuloko.com"]www.kuloko.com LNSpiderguy|[url="http://www.lexis-nexis.com"]www.lexis-nexis.com NetResearchServer|[url="http://www.look.com"]www.look.com MantraAgent|[url="http://www.looksmart.com"]www.looksmart.com NetResearchServer|[url="http://www.loopimprovements.com"]www.loopimprovements.com Lycos_Spider|[url="http://www.lycos.com"]www.lycos.com JoocerBot|[url="http://www.joocer.com"]www.joocer.com HenryTheMiragoRobot|[url="http://www.mirago.co.uk"]www.mirago.co.uk mozDex|[url="http://www.mozdex.com"]www.mozdex.com MSNBOT|search.msn.com Gulliver|[url="http://www.northernlight.com"]www.northernlight.com ObjectsSearch|[url="http://www.objectssearch.com"]www.objectssearch.com PicoSearch|[url="http://www.picosearch.com"]www.picosearch.com PJspider|[url="http://www.portaljuice.com"]www.portaljuice.com DIIbot|[url="http://www.powerinter.net"]www.powerinter.net nttdirectory_robot|navi.ocn.ne.jp NationalDirectory-SuperSpider|[url="http://www.nationaldirectory.com"]www.nationaldirectory.com Openfind piranha,Shark|[url="http://www.openfind.com"]www.openfind.com psbot|[url="http://www.picsearch.org"]www.picsearch.org CrawlerBoy Pinpoint.com|[url="http://www.pinpoint.com"]www.pinpoint.com AlkalineBOT|[url="http://www.vestris.com"]www.vestris.com Fluffy the spider|[url="http://www.searchhippo.com"]www.searchhippo.com Scrubby|[url="http://www.scrubtheweb.com"]www.scrubtheweb.com asterias|[url="http://www.singingfish.com"]www.singingfish.com Kototoi|[url="http://www.s.u-tokyo.ac.jp"]www.s.u-tokyo.ac.jp Searchspider|[url="http://www.searchspider.com"]www.searchspider.com SightQuestBot|[url="http://www.sightquest.com"]www.sightquest.com Spider_Monkey|[url="http://www.spidermonkey.ca"]www.spidermonkey.ca Surfnomore Spider|[url="http://www.surfnomore.com"]www.surfnomore.com [email][email protected][/email]|[url="http://www.supersnooper.com"]www.supersnooper.com teoma|[url="http://www.teoma.com"]www.teoma.com Teradex_Mapper|mapper.teradex.com ESISmartSpider|[url="http://www.travel-finder.com"]www.travel-finder.com Spider TraficDublu|[url="http://www.traficdublu.ro"]www.traficdublu.ro Tutorial Crawler|[url="http://www.tutorgig.com"]www.tutorgig.com UK Searcher Spider|[url="http://www.uksearcher.co.uk"]www.uksearcher.co.uk Vivante Link Checker|[url="http://www.vivante.com"]www.vivante.com appie|[url="http://www.walhello.com"]www.walhello.com Nazilla|[url="http://www.websmostlinked.com"]www.websmostlinked.com [url="http://www.WebWombat.com.au"]www.WebWombat.com.au|[url="http://www.webwombat.com.au"]www.webwombat.com.au marvininfoseek|[url="http://www.webseek.de"]www.webseek.de MuscatFerret|[url="http://www.webtop.com"]www.webtop.com WhizBang! Lab|[url="http://www.whizbanglabs.com"]www.whizbanglabs.com ZyBorg|[url="http://www.wisenut.com"]www.wisenut.com WIRE WebRefiner|[url="http://www.wire.co.uk"]www.wire.co.uk WSCbot|[url="http://www.worldsearchcenter.com"]www.worldsearchcenter.com Yandex|[url="http://www.yandex.com"]www.yandex.com Yellopet-Spider|[url="http://www.yellowpet.com"]www.yellowpet.com
-
Puoi aprire lo stesso in motori?
Ti do l'autorizzazione a farlo, visto che serve per far commentare e nel caso serve (non credo ) si può implementare.
-
k...
-
Io uso questo funziona perfettamente! Proprio oggi mi hanno visitato 4 pagine...e mi sono arrivate 4 email. Forse l'unica cosa che non va è proprio questo....le troppe email. Registrare il tutto in file di testo l'approvo al 100%!!! Però mi è sembrato sempre utile postare il codice che uso io....
<? if(eregi("googlebot",$HTTP_USER_AGENT)) { if ($QUERY_STRING != "") {$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;} else {$url = "http://".$SERVER_NAME.$PHP_SELF;} $today = date("F j, Y, g:i a"); mail("[email protected]", "Googlebot detected on http://$SERVER_NAME", "$today - Google crawled $url"); } ?>
-
Non so dove, ma tempo fa avevo visto un apposito Mod per phpbb che ti faceva inviare una email quando google passava per il forum.
Sapete dove lo posso ritrovare? E magari può esservi d'aiuto per determinare il codice che volete scrivere.
Fabio.
-
Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB.
-
@Sugnu Beddu said:
Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. Si ma non so dove inserirlo. Ci sono i file tpl ed i file php Avevo trovato il mod che in meno di 30 righe ti diceva che file modificare e come ma non lo ritrovo
Grazie.
-
Puoi inserirlo in alto....nei seguenti file:
-
index.php
-
viewforum.php
-
viewtopic.php
-
-
se lo metti nell'header fai prima e lo metti in un solo punto..