• Super User

    Ciao,
    sovente i programmi come gli email harvester, si camuffano in vario modo, e bypassano piacevolmente il robots.txt, accedono al tuo sito usando refer fasulli (mai avuto iaea.org tra i refer?), o si fingono browser IE (come il citato, nell'elenco, EmailSiphon).

    Un metodo assai più sicuro per bannare quel tipo di software vampiro si ottiene tramite Htaccess, sfruttando il mod_rewrite

    Per bloccare uno User agent

    RewriteCond %{HTTP_USER_AGENT} "ExtractorPro"
    RewriteRule .* - [F,L]
    

    Per bloccare un Ip e tutta la sua allegra classe:

    RewriteCond %{REMOTE_ADDR} "^63\.148\.99\.2(2[4-9]|[3-4][0-9]|5[0-5])$"
    RewriteRule .* - [F,L]
    

    Per bloccare accessi da refer sospetti:

    RewriteCond %{HTTP_REFERER} iaea\.org
    RewriteRule .* - [F,L]
    

    Ovviamente un htaccess può contenere infinite delle istanze sopra riportate, quindi essere adattato alla lunga -e utile!- lista che hai proposto 🙂

    Cordialmente,
    Stuart


  • Community Manager

    Bellissimo questo Thread, grazie a Marco per averlo aperto e riportato la lunga lista e a Stuart per averlo approfondito.

    :ciauz:


  • Super User

    sicuramente il metodo suggerito da Stuart è più sicuro 🙂


  • Bannato Super User

    Stuart, Giorgio.... Esiste una guida, preferibilmente in lingua italiana per tutti i comandi di .htaccess ?

    🙂 :ciauz:


  • Super User

    @Dell'Orto Fabio said:

    Stuart, Giorgio.... Esiste una guida, preferibilmente in lingua italiana per tutti i comandi di .htaccess ?

    🙂 :ciauz:
    in inglese
    http://www.freewebmasterhelp.com/tutorials/htaccess/

    in italiano
    http://www.tuxcommunity.net/modules.php?name=Conteudo&file=index&pa=showpage&pid=16

    consiglio
    cerca su Google i singoli comandi ....


  • Super User

    scusa Stuart, ma se cammuffano l'user-agent non sfuggono ANCHE a .htaccess? :mmm:

    o intendevi che, ammesso che l'user agent non venga cammuffato, alcuni se ne fregano del robots.txt ma NON possono ignorare htaccess? 🙂


  • User Attivo

    @Stuart said:

    Un metodo assai più sicuro per bannare quel tipo di software vampiro si ottiene tramite Htaccess, sfruttando il mod_rewrite

    Si vero Stuart è sicuramente più sicuro con il rewrite, grazie per il consiglio, anche io ritengo facilmente scavalcabile il semplice robots.txt, in ogni caso mi pare che costi poco metterlo, qualcuno di questi programmi, magari i meno aggiornati li bloccherà.

    Ricordo che anche autorevoli siti lo usano ancora, però in questo campo chi si occupa di grabbare e-mail e copiare interi siti è sempre al lavoro per adattare e migliorare i suoi software, sono cose che gli rendono abbastanza, basti pensare a quei CD colmi di indirizzi mail suddivisi per categorie che arrivano, guardacaso in posta con lo spam se li vuoi acquistare.

    :ciauz:


  • Super User

    @Tambu said:

    se cammuffano l'user-agent non sfuggono ANCHE a .htaccess?
    Purtroppo si...
    in questo caso devi fare attenzione ai tuoi logs, guardando la coerenza dei referer e degli Ip. Un traffico 'innaturale' deve farti alzare il livello di guardia. Solitamente quando gli harvester trovano qualche trucchetto, se ne parla nei groups: http://groups.google.it/group/alt.spam

    @Tambu said:

    o intendevi che, ammesso che l'user agent non venga cammuffato, alcuni se ne fregano del robots.txt ma NON possono ignorare htaccess? 🙂
    La lista fornita da MarcoTuscany copre una più che consistente fetta di mercato, e l'htaccess non è bypassabile da qualsiasi programma utilizzi gli user agenti elencati.

    In aggiunta, per chi vuole, di sotto ci sono gli user agent dei classici download manager (pragrammi che permettono la copia in locale dell'intero sito). Non sono spam, ma ciucciano banda che è un piacere...

    GetRight/3.x.x 
    GetRight/4.5xx 
    GetRight/4.x 
    GetRight/4.x[a-e] 
    GetRightPro/6.0beta2
    
    Go!Zilla 3.x 
    Go!Zilla/4.x.x.xx
    
    DA 3.5 (www.lidan.com)
    DA 4.0
    DA 4.0 (www.downloadaccelerator.com)
    DA 5.0 
    DA 7.0  
    
    

    Ce ne sono molti altri comunque, se riesco a fare una bella lista completa la posto qui.

    E per finire, una gustosa citazione di come siano diventati 'bravi' (siamo in 'Posizionamento nei motori di ricerca', eviterei ogni discussione su quanto sia etico ciò che viene suggerito.........comunque secondo me non lo è! :2:

    @FAQ di Download Accelerator Plus said:

    How to use Download Accelerator Plus to download files from sites that do not support the use of download managers? - [ossia quei siti che lo hanno bloccato da htaccess . Nda]
    Open DAP, click the "Tools" menu -> "Options", enter "Connection" on the screen that you get and select your browser from the drop down list of the "User Agent" in order to allow it to download files from sites that do not support the use of download managers. To return to Default Values, select DA 7.0 again.

    http://www.speedbit.com/FAQ.asp

    ()

    Cordialmente,
    Stuart


  • User Attivo

    Come vi regolate per attacchi (exploit) al vostro sito da ip diversi?
    Saluti

    Dario


  • User

    Se avete accesso diretto alla configurazione del vostro webserver, solitamente è disponibile una funzione di limitazione della banda, che può esser utile dove l'utilizzo di un htaccess non può parare. Nel caso di apache2, mod_cband fa il suo dovere limitando:

    • L’uso totale di banda in un determinato periodo
    • La velocità massima di download
    • Il numero massimo di richieste al secondo
    • Il numero massimo di connessioni per ip

    Così gli harvester non bloccati da htaccess continueranno a girare indisturbati per il sito, ma almeno lo faranno in maniera più "soft".


  • User

    grazie a tutti anche da parte mia 😉