• User

    Numerosi accesi da bot di motori di ricerca almeno penso

    Nelle statistiche di un sito in particolare trovo un centinaio di accessi al giorno ma non è traffico "puro" provenienti da motori di ricerca (il sito non è indicizzato) ma mi sembra di capire che si sono numerosi IP che fanno richiesta delle pagine, se localizzo alcuni di quegli IP trovo quasi sempre questa risposta:

    Nazione : United States

    Citta : Wilmington

    Rete : ** ( )**

    Host Name : ec2-52-40-38-172.us-west-2.compute.amazonaws.com

    Nelle statistiche sezione SPIDER ne trovo elencati diversi:
    bingbot 229+62 1.74 MB 25 Nov 2016 - 01:15
    Unknown robot (identified by 'crawl') 151+6 2.20 MB 18 Nov 2016 - 18:04
    Googlebot 119+31 925.43 KB 24 Nov 2016 - 22:07
    MJ12bot 82+62 557.52 KB 25 Nov 2016 - 01:57
    Bing Preview bot 143 3.19 MB 23 Nov 2016 - 11:25
    Unknown robot (identified by 'bot*') 51+17 290.37 KB 24 Nov 2016 - 13:16
    Java (Often spam bot) 67 1.56 MB 25 Nov 2016 - 01:37
    BaiDuSpider

    Devo includere qualche META TAG per prevenire questo oppure si tratta di altra cosa?


  • User Attivo

    Non so come la sezione spider funziona per individuare il nome del bot. Se usa il user agent allora non e affidabile.

    comunque potresti bloccare gli ip collegati a questo dns ec2-52-40-38-172.us-west-2.compute.amazonaws.com

    Puoi farlo in vari modi.

    Se hai trovato un range d'ip abastanza preciso, puoi fare direttamente un deny sul range tramitte htacess. Altrimenti fai un altra cosa. Prima di fare rispondere il server, controlli il dns collegato a l'ip del cliente (get host by adress), se il dns corrisponde, fai due cose, rispondi con una 403 (forbidden) e poi aggiungi l'ip in un file ip.txt

    Visto che hai une centinaio di acessi al giorno m'imagino che in un giorno avrai fatto il giro di tutti gli IP (almeno che non ne usano migliaia). A questo punto puoi prendere la lista e fare un deny bovino sopra, sempre sul htacess. Ochhio a non bloccare Google ^^