• Super User

    Qua ho trovato alcune info utili... Non ho approfondito... appena aprirete la pagina capirete il perchè... :stordita:

    Tradotta in italiano:
    http://216.239.39.104/translate_c?hl=it&sl=en&u=http://www.google.com/bot.html&prev=/search%3Fq%3Dhttp://www.google.com/bot.html%26hl%3Dit%26lr%3D%26c2coff%3D1%26sa%3DG

    Originale:
    http://www.google.com/bot.html


  • User

    Io ho fatto questo script per loggare in un file .txt il passaggio degli spider, può essere facilmente adattato per l'invio di una mail

    
    <?
    
    $agents = array&#40;
    "ultraseek" 		=> "Infoseek",
    "sidewinder/" 		=> "Infoseek",
    "ia_archiver" 		=> "Alexa",
    "arianna.iol.it" 	=> "Arianna",
    "ask jeeves" 		=> "?",
    "fast-webcrawler/" 	=> "Fast",
    "googlebot-" 		=> "Google Immagini",
    "googlebot/" 		=> "Google",
    "mercator-" 		=> "Altavista",
    "scooter/" 			=> "Altavista",
    "scooter-" 			=> "Altavista",
    "arachnoidea"		=> "?",
    "yhaoo"				=> "Yahoo",
    "slurp"				=> "Inkomi",
    "gulliver/"			=> "NorthernLight",
    "lycos_spider_&#40;t-rex&#41;"	=> "Lycos",
    "architextspider"	=> "Excite",
    "libwww-perl/"		=> "Excite",
    "almaden.ibm.com"	=> "Ibm Resarch"
    &#41;;
    
    $filename = "motori.txt";
    $ua = $_SERVER&#91;"HTTP_USER_AGENT"&#93;;
    $page = $_SERVER&#91;'PHP_SELF'&#93;;
    
    
    foreach &#40;$agents as $ag => $motore&#41; &#123;
    //print date&#40;" d-M-Y H:i "&#41; . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n";
      if &#40;strpos &#40;strtolower &#40;" " . $ua&#41;, $ag&#41; > 0&#41; &#123;
        $fp = fopen&#40;$filename, "a"&#41;;
    
        if &#40;$fp&#41; &#123;
          fwrite&#40;$fp, date&#40;" d-M-Y H&#58;i "&#41; . " \t" . $motore . " \t" . $ag . " \t" . $page ."\n"&#41;;
          fclose&#40;$fp&#41;;
          break;
        &#125;
      &#125;
    &#125;
    ?>
    
    

    se volete aiutarmi a tenere aggiornati gli agents ve ne sono grato bye


  • Community Manager

    Per me va benissimo.

    webfil, possiamo fare un bel topic con tutta la lista degli spider nella sezione motori di ricerca


  • Super User

    giorgio, piu tardi ti posto il mio..è una bomba!!

    Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta 😄


  • Community Manager

    @Tuonorosso said:

    giorgio, piu tardi ti posto il mio..è una bomba!!

    Anzi...spesso devo disabilitarlo perchè slurp mi spiderizza trooppo in fretta 😄

    :sbav:


  • Super User
    pagina 1: 
    <?php  
    /* ------------------------------------------------------------ */ 
    /* Spider-Sense                                                                                                    */ 
    /* Detects bot activity and alerts you to their presence                */ 
    /* By Shawn Raloff                                                                                                */ 
    /* [url="http&#58;//www.side2.com"]http&#58;//www.side2.com                                                                                 */ 
    /* ------------------------------------------------------------ */ 
    
    /* ---------- You must set these variables ---------- */ 
    $domain = "www.tuosito.it"; 
    $email = "[email protected]"; 
    
    
    /* ---------- No need to edit beyond this point ---------- */ 
    $bot = $_SERVER&#91;'HTTP_USER_AGENT'&#93;; 
    $page = $_SERVER&#91;'PHP_SELF'&#93;; 
    
    /* ---------- Look for bots ---------- */ 
    ini_set&#40;"sendmail_from",'[email protected]'&#41;; 
    
    //mail&#40;"$email", "aaaa", "aaa"&#41;; 
    $myFile = fopen&#40;"spider-sense.dat","r"&#41;; 
    while&#40;!feof&#40;$myFile&#41;&#41;  
    &#123; 
        $myLine = chop&#40;fgets&#40;$myFile, 255&#41;&#41;; 
        list&#40;$agent,$url&#41; = split&#40;"&#91;|&#93;", $myLine&#41;; 
        if&#40; eregi&#40;$agent,$bot&#41; &#41; 
        &#123;  
            mail&#40;"$email", "$agent detected on $domain", "$agent has crawled $page on $domain"&#41;;  
        &#125; 
    &#125; 
    
    fclose&#40;$myFile&#41;; 
    
    //echo "[url='http&#58;//www.side2.com']Powered By Side2.com"; 
    ?> 
    
    

    spider-sense.dat:

    AbachoBOT|[url="http&#58;//www.abacho.com"]www.abacho.com 
    abcdatos_botlink|[url="http&#58;//www.abcdatos.com"]www.abcdatos.com 
    AESOP_com_SpiderMan|[url="http&#58;//www.aesop.com"]www.aesop.com 
    ah-ha.com crawler|[url="http&#58;//www.ah-ha.com"]www.ah-ha.com 
    ia_archiver|[url="http&#58;//www.alexa.com"]www.alexa.com 
    Scooter|[url="http&#58;//www.altavista.com"]www.altavista.com 
    AltaVista-Intranet|[url="http&#58;//www.altavista.co.uk"]www.altavista.co.uk 
    FAST-WebCrawler|[url="http&#58;//www.alltheweb.com"]www.alltheweb.com 
    Acoon Robot|[url="http&#58;//www.acoon.de"]www.acoon.de 
    antibot|[url="http&#58;//www.antisearch.net"]www.antisearch.net 
    Atomz|[url="http&#58;//www.atomz.com"]www.atomz.com 
    Buscaplus Robi|[url="http&#58;//www.buscaplus.com"]www.buscaplus.com 
    CanSeek|[url="http&#58;//www.canseek.ca"]www.canseek.ca 
    ChristCRAWLER|[url="http&#58;//www.christcrawler.com"]www.christcrawler.com 
    Crawler|[url="http&#58;//www.crawler.de"]www.crawler.de 
    DaAdLe.com ROBOT|[url="http&#58;//www.daadle.com"]www.daadle.com 
    RaBot|[url="http&#58;//www.daum.net"]www.daum.net 
    DeepIndex|[url="http&#58;//www.en.deepindex.com"]www.en.deepindex.com 
    DittoSpyder|[url="http&#58;//www.ditto.com"]www.ditto.com 
    Jack|domanova.co.uk 
    Speedy Spider|[url="http&#58;//www.entireweb.com"]www.entireweb.com 
    ArchitextSpider|[url="http&#58;//www.excite.com"]www.excite.com 
    Arachnoidea|[url="http&#58;//www.euroseek.net"]www.euroseek.net 
    EZResult|[url="http&#58;//www.ezresults.com"]www.ezresults.com 
    Fast PartnerSite Crawler|[url="http&#58;//www.fastsearch.net"]www.fastsearch.net 
    KIT-Fireball|[url="http&#58;//www.fireball.de"]www.fireball.de 
    FyberSearch|[url="http&#58;//www.fybersearch.com"]www.fybersearch.com 
    GalaxyBot|[url="http&#58;//www.galaxy.com"]www.galaxy.com 
    geckobot|[url="http&#58;//www.geckobot.com"]www.geckobot.com 
    GenCrawler|[url="http&#58;//www.gendoor.com"]www.gendoor.com 
    GeonaBot|[url="http&#58;//www.geona.com"]www.geona.com 
    Googlebot|[url="http&#58;//www.google.com"]www.google.com 
    Aranha|[url="http&#58;//www.girafa.com"]www.girafa.com 
    Slurp|[url="http&#58;//www.inktomisearch.com"]www.inktomisearch.com 
    Toutatis|hoppa.com 
    Hubater|[url="http&#58;//www.hubat.com"]www.hubat.com 
    IlTrovatore-Setaccio|[url="http&#58;//www.iltrovatore.it"]www.iltrovatore.it 
    IncyWincy|[url="http&#58;//www.incywincy.com"]www.incywincy.com 
    UltraSeek|[url="http&#58;//www.infoseek.com"]www.infoseek.com 
    Mole2|[url="http&#58;//www.intags.de"]www.intags.de 
    MP3Bot|mp3bot.de 
    C-PBWF-ip3000.com-crawler|[url="http&#58;//www.ip3000.com"]www.ip3000.com 
    kuloko-bot|[url="http&#58;//www.kuloko.com"]www.kuloko.com 
    LNSpiderguy|[url="http&#58;//www.lexis-nexis.com"]www.lexis-nexis.com 
    NetResearchServer|[url="http&#58;//www.look.com"]www.look.com 
    MantraAgent|[url="http&#58;//www.looksmart.com"]www.looksmart.com 
    NetResearchServer|[url="http&#58;//www.loopimprovements.com"]www.loopimprovements.com 
    Lycos_Spider|[url="http&#58;//www.lycos.com"]www.lycos.com 
    JoocerBot|[url="http&#58;//www.joocer.com"]www.joocer.com 
    HenryTheMiragoRobot|[url="http&#58;//www.mirago.co.uk"]www.mirago.co.uk 
    mozDex|[url="http&#58;//www.mozdex.com"]www.mozdex.com 
    MSNBOT|search.msn.com 
    Gulliver|[url="http&#58;//www.northernlight.com"]www.northernlight.com 
    ObjectsSearch|[url="http&#58;//www.objectssearch.com"]www.objectssearch.com 
    PicoSearch|[url="http&#58;//www.picosearch.com"]www.picosearch.com 
    PJspider|[url="http&#58;//www.portaljuice.com"]www.portaljuice.com 
    DIIbot|[url="http&#58;//www.powerinter.net"]www.powerinter.net 
    nttdirectory_robot|navi.ocn.ne.jp 
    NationalDirectory-SuperSpider|[url="http&#58;//www.nationaldirectory.com"]www.nationaldirectory.com 
    Openfind piranha,Shark|[url="http&#58;//www.openfind.com"]www.openfind.com 
    psbot|[url="http&#58;//www.picsearch.org"]www.picsearch.org 
    CrawlerBoy Pinpoint.com|[url="http&#58;//www.pinpoint.com"]www.pinpoint.com 
    AlkalineBOT|[url="http&#58;//www.vestris.com"]www.vestris.com 
    Fluffy the spider|[url="http&#58;//www.searchhippo.com"]www.searchhippo.com 
    Scrubby|[url="http&#58;//www.scrubtheweb.com"]www.scrubtheweb.com 
    asterias|[url="http&#58;//www.singingfish.com"]www.singingfish.com 
    Kototoi|[url="http&#58;//www.s.u-tokyo.ac.jp"]www.s.u-tokyo.ac.jp 
    Searchspider|[url="http&#58;//www.searchspider.com"]www.searchspider.com 
    SightQuestBot|[url="http&#58;//www.sightquest.com"]www.sightquest.com 
    Spider_Monkey|[url="http&#58;//www.spidermonkey.ca"]www.spidermonkey.ca 
    Surfnomore Spider|[url="http&#58;//www.surfnomore.com"]www.surfnomore.com 
    &#91;email&#93;[email protected]&#91;/email&#93;|[url="http&#58;//www.supersnooper.com"]www.supersnooper.com 
    teoma|[url="http&#58;//www.teoma.com"]www.teoma.com 
    Teradex_Mapper|mapper.teradex.com 
    ESISmartSpider|[url="http&#58;//www.travel-finder.com"]www.travel-finder.com 
    Spider TraficDublu|[url="http&#58;//www.traficdublu.ro"]www.traficdublu.ro 
    Tutorial Crawler|[url="http&#58;//www.tutorgig.com"]www.tutorgig.com 
    UK Searcher Spider|[url="http&#58;//www.uksearcher.co.uk"]www.uksearcher.co.uk 
    Vivante Link Checker|[url="http&#58;//www.vivante.com"]www.vivante.com 
    appie|[url="http&#58;//www.walhello.com"]www.walhello.com 
    Nazilla|[url="http&#58;//www.websmostlinked.com"]www.websmostlinked.com 
    [url="http&#58;//www.WebWombat.com.au"]www.WebWombat.com.au|[url="http&#58;//www.webwombat.com.au"]www.webwombat.com.au 
    marvininfoseek|[url="http&#58;//www.webseek.de"]www.webseek.de 
    MuscatFerret|[url="http&#58;//www.webtop.com"]www.webtop.com 
    WhizBang! Lab|[url="http&#58;//www.whizbanglabs.com"]www.whizbanglabs.com 
    ZyBorg|[url="http&#58;//www.wisenut.com"]www.wisenut.com 
    WIRE WebRefiner|[url="http&#58;//www.wire.co.uk"]www.wire.co.uk 
    WSCbot|[url="http&#58;//www.worldsearchcenter.com"]www.worldsearchcenter.com 
    Yandex|[url="http&#58;//www.yandex.com"]www.yandex.com 
    Yellopet-Spider|[url="http&#58;//www.yellowpet.com"]www.yellowpet.com
    
    

  • Community Manager

    Puoi aprire lo stesso in motori?

    Ti do l'autorizzazione a farlo, visto che serve per far commentare e nel caso serve (non credo ) si può implementare.


  • Super User

    k...
    😉


  • User Attivo

    Io uso questo funziona perfettamente! Proprio oggi mi hanno visitato 4 pagine...e mi sono arrivate 4 email. Forse l'unica cosa che non va è proprio questo....le troppe email. Registrare il tutto in file di testo l'approvo al 100%!!! Però mi è sembrato sempre utile postare il codice che uso io....

    
    
    <?
    
    if&#40;eregi&#40;"googlebot",$HTTP_USER_AGENT&#41;&#41;
    	&#123;
    	if &#40;$QUERY_STRING != ""&#41;
    		&#123;$url = "http://".$SERVER_NAME.$PHP_SELF.'?'.$QUERY_STRING;&#125;
    	else
    		&#123;$url = "http&#58;//".$SERVER_NAME.$PHP_SELF;&#125;
    	$today = date&#40;"F j, Y, g&#58;i a"&#41;;
    	mail&#40;"[email protected]", "Googlebot detected on http&#58;//$SERVER_NAME", "$today - Google crawled $url"&#41;;
    	&#125; 
    
    ?>
    	
            
    

  • User Attivo

    Non so dove, ma tempo fa avevo visto un apposito Mod per phpbb che ti faceva inviare una email quando google passava per il forum.
    Sapete dove lo posso ritrovare? E magari può esservi d'aiuto per determinare il codice che volete scrivere.
    Fabio.


  • User Attivo

    Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. :yuppi:


  • User Attivo

    @Sugnu Beddu said:

    Comunque puoi usare anche il codice che ho postato sopra...anche per il forum phpBB. :yuppi:Si ma non so dove inserirlo. Ci sono i file tpl ed i file php :arrabbiato: :arrabbiato: Avevo trovato il mod che in meno di 30 righe ti diceva che file modificare e come ma non lo ritrovo :arrabbiato:

    Grazie.


  • User Attivo

    :fumato:

    Puoi inserirlo in alto....nei seguenti file:

    • index.php

    • viewforum.php

    • viewtopic.php

    :yuppi:


  • Super User

    se lo metti nell'header fai prima e lo metti in un solo punto.. 😉


  • User Attivo

    :arrabbiato: :arrabbiato: Ecco vedi, cosa succede se lo metto nel file overall_header.tpl?
    Non c'è un file.php che compare in tutte le pagine?
    Ciao e grazie.


  • User Attivo

    @Tuonorosso said:

    se lo metti nell'header fai prima e lo metti in un solo punto.. 😉 () Non svevo letto la tua risposta...
    Che header? Nei file tpl il php non viene compilato :mmm:


  • User Attivo

    Ascolta me....mettili dove ti ho detto io prima che funziona!

    Poi quando trovi un'altro metodo poi cambi...

    :yuppi:


  • Super User

    vi sbagliate,
    io ho messo tranquillamente del php alla fine dell'overall_footer.tpl

    basta mettere

    <?php

    il tuo script

    ?>

    :ciauz:


  • User Attivo

    :mmm: Mi ricordo che tempo fa provai a mettere del codice php in una pagina tpl, mi sembra proprio nell'overall_footer ma questo mi appariva non compilato. Comunque posso riprovare 😉

    Ma con il codice che hai messo tu, sugnu beddu, ti arriva una email per ogni pagina visitata?

    Grazie.


  • User Attivo

    :mmm: :mmm: Wow, adesso mi sembra che il codice php inserito nel file tpl venga compilato. Beh aspetto le email del passaggio del googlebot.

    Probabilmente l'altra volta non mi funzionavano perchè il codice php serviva per fare delle cose sul database :mmm:

    Se funziona, vi ringrazio. Ho usato il codice messo da sugnu beddu 😄