• Community Manager

    Script che quando passa lo spider di google manda una mail

    Ragazzi, proviamo questo script

    if (stristr($HTTP_USER_AGENT, 'google')){
    $destinatario ="vostra mail";
    $oggetto ="google è passato";
    $info="è passato lo spider di google";
    mail ($destinatario, $oggetto, $info);
    } else {

    }

    Deve andare in una pagina con estensione php. Cerco ancora in giro per vedere se va perchè ho paura che la sintatti sia sbagliata.

    Se funziona mettiamo anche l'ora.


  • Super User

    Non penso proprio che vada...
    la variabile $HTTP_USER_AGENT (o $_SERVER['HTTP_USER_AGENT'] ) rileva il browser in uso... non penso che esista un browser chiamato google... 😄

    Al massimo, puoi fare una ricerca dell'indirizzo ip, con $_SERVER['REMOTE_ADDR'] ( o getenv("REMOTE_ADDR") per le versioni più vecchiotte di php ) e controllare se sia quello usato da google così:

    
    <?
    $googleip = gethostbyname&#40;"google.com"&#41;;
    if&#40;$_SERVER&#91;'REMOTE_ADDR'&#93; == $googleip&#41; mail&#40;"[email protected]", "E' passato!", "Google"&#41;;
    ?>
    
    

  • Community Manager

    Non sono esperto di spider, conosco ben poco.

    Proviamo quello di Pater?


  • Super User

    io non so neanche cosa è lo spider...
    stavo pensando che secondo il ragionamento, che dice che ogni computer connesso ad internet è fornito di un IP dal provider al momento della connessione, quando il programma spider di google passa dal tuo sito, deve avere l'ip del suo pc, ovvero quello di google. Facendo gli opportuni controlli, è possibile sapere se un utente od un programma sul pc del server di google sta passando per il tuo sito :sbav:


  • User Attivo

    guarda se funziona questo script doveva funzionare anche quello che avevo postato per togliere le sessioni da phpbb (la condizione dell'if è la stessa). Però quello continua tuttora a non funzionare.. :bho:


  • Community Manager

    @oronzo_canà said:

    guarda se funziona questo script doveva funzionare anche quello che avevo postato per togliere le sessioni da phpbb (la condizione dell'if è la stessa). Però quello continua tuttora a non funzionare.. :bho:

    Strano, ora chiedo uno per il cloaking ma la funzione e la stessa :bho:


  • Super User

    @oronzo_canà said:

    guarda se funziona questo script doveva funzionare anche quello che avevo postato per togliere le sessioni da phpbb (la condizione dell'if è la stessa). Però quello continua tuttora a non funzionare.. :bho:mmm...
    non so... in effetti è possibile che google utilizzi un router per gestire un'altro pc, che esegue lo spider... ma l'IP dovrebbe essere comunque lo stesso 😐


  • Anche gli spider hanno l'user agent "HTTP_USER_AGENT"

    Uno di quelli di google è:
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    gli altri non me li ricordo a memoria cmq si cerca la stringa google da user agent e via.

    Per funzionare funziona, ultimamente mi sono fatto un sistemino di statistiche con mysql e queste variabili ambiente di apache REQUEST_METHOD QUERY_STRING REQUEST_URI HTTP_USER_AGENT REMOTE_ADDR REQUEST_METHOD più qualche altra cosa che non mi ricordo.


  • Super User

    Qua ho trovato alcune info utili... Non ho approfondito... appena aprirete la pagina capirete il perchè... :stordita:

    Tradotta in italiano:
    http://216.239.39.104/translate_c?hl=it&sl=en&u=http://www.google.com/bot.html&prev=/search%3Fq%3Dhttp://www.google.com/bot.html%26hl%3Dit%26lr%3D%26c2coff%3D1%26sa%3DG

    Originale:
    http://www.google.com/bot.html


  • User

    Io ho fatto questo script per loggare in un file .txt il passaggio degli spider, può essere facilmente adattato per l'invio di una mail

    
    <?
    
    $agents = array&#40;
    "ultraseek" 		=> "Infoseek",
    "sidewinder/" 		=> "Infoseek",
    "ia_archiver" 		=> "Alexa",
    "arianna.iol.it" 	=> "Arianna",
    "ask jeeves" 		=> "?",
    "fast-webcrawler/" 	=> "Fast",
    "googlebot-" 		=> "Google Immagini",
    "googlebot/" 		=> "Google",
    "mercator-" 		=> "Altavista",
    "scooter/" 			=> "Altavista",
    "scooter-" 			=> "Altavista",
    "arachnoidea"		=> "?",
    "yhaoo"				=> "Yahoo",
    "slurp"				=> "Inkomi",
    "gulliver/"			=> "NorthernLight",
    "lycos_spider_&#40;t-rex&#41;"	=> "Lycos",
    "architextspider"	=> "Excite",
    "libwww-perl/"		=> "Excite",
    "almaden.ibm.com"	=> "Ibm Resarch"
    &#41;;
    
    $filename = "motori.txt";
    $ua = $_SERVER&#91;"HTTP_USER_AGENT"&#93;;
    $page = $_SERVER&#91;'PHP_SELF'&#93;;
    
    
    foreach &#40;$agents as $ag => $motore&#41; &#123;
    //print date&#40;" d-M-Y H:i "&#41; . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n";
      if &#40;strpos &#40;strtolower &#40;" " . $ua&#41;, $ag&#41; > 0&#41; &#123;
        $fp = fopen&#40;$filename, "a"&#41;;
    
        if &#40;$fp&#41; &#123;
          fwrite&#40;$fp, date&#40;" d-M-Y H&#58;i "&#41; . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"&#41;;
          fclose&#40;$fp&#41;;
          break;
        &#125;
      &#125;
    &#125;
    ?>
    
    

    se volete aiutarmi a tenere aggiornati gli agents ve ne sono grato bye


  • Community Manager

    Per me va benissimo.

    webfil, possiamo fare un bel topic con tutta la lista degli spider nella sezione motori di ricerca


  • Super User

    giorgio, piu tardi ti posto il mio..è una bomba!!

    Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta 😄


  • Community Manager

    @Tuonorosso said:

    giorgio, piu tardi ti posto il mio..è una bomba!!

    Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta 😄

    :sbav:


  • Super User
    pagina 1: 
    <?php  
    /* ------------------------------------------------------------ */ 
    /* Spider-Sense                                                                                                    */ 
    /* Detects bot activity and alerts you to their presence                */ 
    /* By Shawn Raloff                                                                                                */ 
    /* [url="http&#58;//www.side2.com"]http&#58;//www.side2.com                                                                                 */ 
    /* ------------------------------------------------------------ */ 
    
    /* ---------- You must set these variables ---------- */ 
    $domain = "www.tuosito.it"; 
    $email = "[email protected]"; 
    
    
    /* ---------- No need to edit beyond this point ---------- */ 
    $bot = $_SERVER&#91;'HTTP_USER_AGENT'&#93;; 
    $page = $_SERVER&#91;'PHP_SELF'&#93;; 
    
    /* ---------- Look for bots ---------- */ 
    ini_set&#40;"sendmail_from",'[email protected]'&#41;; 
    
    //mail&#40;"$email", "aaaa", "aaa"&#41;; 
    $myFile = fopen&#40;"spider-sense.dat","r"&#41;; 
    while&#40;!feof&#40;$myFile&#41;&#41;  
    &#123; 
        $myLine = chop&#40;fgets&#40;$myFile, 255&#41;&#41;; 
        list&#40;$agent,$url&#41; = split&#40;"&#91;|&#93;", $myLine&#41;; 
        if&#40; eregi&#40;$agent,$bot&#41; &#41; 
        &#123;  
            mail&#40;"$email", "$agent detected on $domain", "$agent has crawled $page on $domain"&#41;;  
        &#125; 
    &#125; 
    
    fclose&#40;$myFile&#41;; 
    
    //echo "[url='http&#58;//www.side2.com']Powered By Side2.com"; 
    ?> 
    
    

    spider-sense.dat:

    AbachoBOT|[url="http&#58;//www.abacho.com"]www.abacho.com 
    abcdatos_botlink|[url="http&#58;//www.abcdatos.com"]www.abcdatos.com 
    AESOP_com_SpiderMan|[url="http&#58;//www.aesop.com"]www.aesop.com 
    ah-ha.com crawler|[url="http&#58;//www.ah-ha.com"]www.ah-ha.com 
    ia_archiver|[url="http&#58;//www.alexa.com"]www.alexa.com 
    Scooter|[url="http&#58;//www.altavista.com"]www.altavista.com 
    AltaVista-Intranet|[url="http&#58;//www.altavista.co.uk"]www.altavista.co.uk 
    FAST-WebCrawler|[url="http&#58;//www.alltheweb.com"]www.alltheweb.com 
    Acoon Robot|[url="http&#58;//www.acoon.de"]www.acoon.de 
    antibot|[url="http&#58;//www.antisearch.net"]www.antisearch.net 
    Atomz|[url="http&#58;//www.atomz.com"]www.atomz.com 
    Buscaplus Robi|[url="http&#58;//www.buscaplus.com"]www.buscaplus.com 
    CanSeek|[url="http&#58;//www.canseek.ca"]www.canseek.ca 
    ChristCRAWLER|[url="http&#58;//www.christcrawler.com"]www.christcrawler.com 
    Crawler|[url="http&#58;//www.crawler.de"]www.crawler.de 
    DaAdLe.com ROBOT|[url="http&#58;//www.daadle.com"]www.daadle.com 
    RaBot|[url="http&#58;//www.daum.net"]www.daum.net 
    DeepIndex|[url="http&#58;//www.en.deepindex.com"]www.en.deepindex.com 
    DittoSpyder|[url="http&#58;//www.ditto.com"]www.ditto.com 
    Jack|domanova.co.uk 
    Speedy Spider|[url="http&#58;//www.entireweb.com"]www.entireweb.com 
    ArchitextSpider|[url="http&#58;//www.excite.com"]www.excite.com 
    Arachnoidea|[url="http&#58;//www.euroseek.net"]www.euroseek.net 
    EZResult|[url="http&#58;//www.ezresults.com"]www.ezresults.com 
    Fast PartnerSite Crawler|[url="http&#58;//www.fastsearch.net"]www.fastsearch.net 
    KIT-Fireball|[url="http&#58;//www.fireball.de"]www.fireball.de 
    FyberSearch|[url="http&#58;//www.fybersearch.com"]www.fybersearch.com 
    GalaxyBot|[url="http&#58;//www.galaxy.com"]www.galaxy.com 
    geckobot|[url="http&#58;//www.geckobot.com"]www.geckobot.com 
    GenCrawler|[url="http&#58;//www.gendoor.com"]www.gendoor.com 
    GeonaBot|[url="http&#58;//www.geona.com"]www.geona.com 
    Googlebot|[url="http&#58;//www.google.com"]www.google.com 
    Aranha|[url="http&#58;//www.girafa.com"]www.girafa.com 
    Slurp|[url="http&#58;//www.inktomisearch.com"]www.inktomisearch.com 
    Toutatis|hoppa.com 
    Hubater|[url="http&#58;//www.hubat.com"]www.hubat.com 
    IlTrovatore-Setaccio|[url="http&#58;//www.iltrovatore.it"]www.iltrovatore.it 
    IncyWincy|[url="http&#58;//www.incywincy.com"]www.incywincy.com 
    UltraSeek|[url="http&#58;//www.infoseek.com"]www.infoseek.com 
    Mole2|[url="http&#58;//www.intags.de"]www.intags.de 
    MP3Bot|mp3bot.de 
    C-PBWF-ip3000.com-crawler|[url="http&#58;//www.ip3000.com"]www.ip3000.com 
    kuloko-bot|[url="http&#58;//www.kuloko.com"]www.kuloko.com 
    LNSpiderguy|[url="http&#58;//www.lexis-nexis.com"]www.lexis-nexis.com 
    NetResearchServer|[url="http&#58;//www.look.com"]www.look.com 
    MantraAgent|[url="http&#58;//www.looksmart.com"]www.looksmart.com 
    NetResearchServer|[url="http&#58;//www.loopimprovements.com"]www.loopimprovements.com 
    Lycos_Spider|[url="http&#58;//www.lycos.com"]www.lycos.com 
    JoocerBot|[url="http&#58;//www.joocer.com"]www.joocer.com 
    HenryTheMiragoRobot|[url="http&#58;//www.mirago.co.uk"]www.mirago.co.uk 
    mozDex|[url="http&#58;//www.mozdex.com"]www.mozdex.com 
    MSNBOT|search.msn.com 
    Gulliver|[url="http&#58;//www.northernlight.com"]www.northernlight.com 
    ObjectsSearch|[url="http&#58;//www.objectssearch.com"]www.objectssearch.com 
    PicoSearch|[url="http&#58;//www.picosearch.com"]www.picosearch.com 
    PJspider|[url="http&#58;//www.portaljuice.com"]www.portaljuice.com 
    DIIbot|[url="http&#58;//www.powerinter.net"]www.powerinter.net 
    nttdirectory_robot|navi.ocn.ne.jp 
    NationalDirectory-SuperSpider|[url="http&#58;//www.nationaldirectory.com"]www.nationaldirectory.com 
    Openfind piranha,Shark|[url="http&#58;//www.openfind.com"]www.openfind.com 
    psbot|[url="http&#58;//www.picsearch.org"]www.picsearch.org 
    CrawlerBoy Pinpoint.com|[url="http&#58;//www.pinpoint.com"]www.pinpoint.com 
    AlkalineBOT|[url="http&#58;//www.vestris.com"]www.vestris.com 
    Fluffy the spider|[url="http&#58;//www.searchhippo.com"]www.searchhippo.com 
    Scrubby|[url="http&#58;//www.scrubtheweb.com"]www.scrubtheweb.com 
    asterias|[url="http&#58;//www.singingfish.com"]www.singingfish.com 
    Kototoi|[url="http&#58;//www.s.u-tokyo.ac.jp"]www.s.u-tokyo.ac.jp 
    Searchspider|[url="http&#58;//www.searchspider.com"]www.searchspider.com 
    SightQuestBot|[url="http&#58;//www.sightquest.com"]www.sightquest.com 
    Spider_Monkey|[url="http&#58;//www.spidermonkey.ca"]www.spidermonkey.ca 
    Surfnomore Spider|[url="http&#58;//www.surfnomore.com"]www.surfnomore.com 
    &#91;email&#93;[email protected]&#91;/email&#93;|[url="http&#58;//www.supersnooper.com"]www.supersnooper.com 
    teoma|[url="http&#58;//www.teoma.com"]www.teoma.com 
    Teradex_Mapper|mapper.teradex.com 
    ESISmartSpider|[url="http&#58;//www.travel-finder.com"]www.travel-finder.com 
    Spider TraficDublu|[url="http&#58;//www.traficdublu.ro"]www.traficdublu.ro 
    Tutorial Crawler|[url="http&#58;//www.tutorgig.com"]www.tutorgig.com 
    UK Searcher Spider|[url="http&#58;//www.uksearcher.co.uk"]www.uksearcher.co.uk 
    Vivante Link Checker|[url="http&#58;//www.vivante.com"]www.vivante.com 
    appie|[url="http&#58;//www.walhello.com"]www.walhello.com 
    Nazilla|[url="http&#58;//www.websmostlinked.com"]www.websmostlinked.com 
    [url="http&#58;//www.WebWombat.com.au"]www.WebWombat.com.au|[url="http&#58;//www.webwombat.com.au"]www.webwombat.com.au 
    marvininfoseek|[url="http&#58;//www.webseek.de"]www.webseek.de 
    MuscatFerret|[url="http&#58;//www.webtop.com"]www.webtop.com 
    WhizBang! Lab|[url="http&#58;//www.whizbanglabs.com"]www.whizbanglabs.com 
    ZyBorg|[url="http&#58;//www.wisenut.com"]www.wisenut.com 
    WIRE WebRefiner|[url="http&#58;//www.wire.co.uk"]www.wire.co.uk 
    WSCbot|[url="http&#58;//www.worldsearchcenter.com"]www.worldsearchcenter.com 
    Yandex|[url="http&#58;//www.yandex.com"]www.yandex.com 
    Yellopet-Spider|[url="http&#58;//www.yellowpet.com"]www.yellowpet.com
    
    

  • Community Manager

    Puoi aprire lo stesso in motori?

    Ti do l'autorizzazione a farlo, visto che serve per far commentare e nel caso serve (non credo ) si può implementare.


  • Super User

    k...
    😉


  • User Attivo

    Io uso questo funziona perfettamente! Proprio oggi mi hanno visitato 4 pagine...e mi sono arrivate 4 email. Forse l'unica cosa che non va è proprio questo....le troppe email. Registrare il tutto in file di testo l'approvo al 100%!!! Però mi è sembrato sempre utile postare il codice che uso io....

    
    
    <?
    
    if&#40;eregi&#40;"googlebot",$HTTP_USER_AGENT&#41;&#41;
    	&#123;
    	if &#40;$QUERY_STRING != ""&#41;
    		&#123;$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;&#125;
    	else
    		&#123;$url = "http&#58;//".$SERVER_NAME.$PHP_SELF;&#125;
    	$today = date&#40;"F j, Y, g&#58;i a"&#41;;
    	mail&#40;"[email protected]", "Googlebot detected on http&#58;//$SERVER_NAME", "$today - Google crawled $url"&#41;;
    	&#125; 
    
    ?>
    	
            
    

  • User Attivo

    Non so dove, ma tempo fa avevo visto un apposito Mod per phpbb che ti faceva inviare una email quando google passava per il forum.
    Sapete dove lo posso ritrovare? E magari può esservi d'aiuto per determinare il codice che volete scrivere.
    Fabio.


  • User Attivo

    Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. :yuppi:


  • User Attivo

    @Sugnu Beddu said:

    Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. :yuppi:Si ma non so dove inserirlo. Ci sono i file tpl ed i file php :arrabbiato: :arrabbiato: Avevo trovato il mod che in meno di 30 righe ti diceva che file modificare e come ma non lo ritrovo :arrabbiato:

    Grazie.