- Home
- Categorie
- La Community Connect.gt
- Tutto sulla Community
- Robots.txt per impedire l'accesso a programmi vari
-
Ciao,
sovente i programmi come gli email harvester, si camuffano in vario modo, e bypassano piacevolmente il robots.txt, accedono al tuo sito usando refer fasulli (mai avuto iaea.org tra i refer?), o si fingono browser IE (come il citato, nell'elenco, EmailSiphon).Un metodo assai più sicuro per bannare quel tipo di software vampiro si ottiene tramite Htaccess, sfruttando il mod_rewrite
Per bloccare uno User agent
RewriteCond %{HTTP_USER_AGENT} "ExtractorPro" RewriteRule .* - [F,L]
Per bloccare un Ip e tutta la sua allegra classe:
RewriteCond %{REMOTE_ADDR} "^63\.148\.99\.2(2[4-9]|[3-4][0-9]|5[0-5])$" RewriteRule .* - [F,L]
Per bloccare accessi da refer sospetti:
RewriteCond %{HTTP_REFERER} iaea\.org RewriteRule .* - [F,L]
Ovviamente un htaccess può contenere infinite delle istanze sopra riportate, quindi essere adattato alla lunga -e utile!- lista che hai proposto
Cordialmente,
Stuart
-
Bellissimo questo Thread, grazie a Marco per averlo aperto e riportato la lunga lista e a Stuart per averlo approfondito.
-
sicuramente il metodo suggerito da Stuart è più sicuro
-
Stuart, Giorgio.... Esiste una guida, preferibilmente in lingua italiana per tutti i comandi di .htaccess ?
-
@Dell'Orto Fabio said:
Stuart, Giorgio.... Esiste una guida, preferibilmente in lingua italiana per tutti i comandi di .htaccess ?
in inglese
http://www.freewebmasterhelp.com/tutorials/htaccess/in italiano
http://www.tuxcommunity.net/modules.php?name=Conteudo&file=index&pa=showpage&pid=16consiglio
cerca su Google i singoli comandi ....
-
scusa Stuart, ma se cammuffano l'user-agent non sfuggono ANCHE a .htaccess?
o intendevi che, ammesso che l'user agent non venga cammuffato, alcuni se ne fregano del robots.txt ma NON possono ignorare htaccess?
-
@Stuart said:
Un metodo assai più sicuro per bannare quel tipo di software vampiro si ottiene tramite Htaccess, sfruttando il mod_rewrite
Si vero Stuart è sicuramente più sicuro con il rewrite, grazie per il consiglio, anche io ritengo facilmente scavalcabile il semplice robots.txt, in ogni caso mi pare che costi poco metterlo, qualcuno di questi programmi, magari i meno aggiornati li bloccherà.
Ricordo che anche autorevoli siti lo usano ancora, però in questo campo chi si occupa di grabbare e-mail e copiare interi siti è sempre al lavoro per adattare e migliorare i suoi software, sono cose che gli rendono abbastanza, basti pensare a quei CD colmi di indirizzi mail suddivisi per categorie che arrivano, guardacaso in posta con lo spam se li vuoi acquistare.
-
@Tambu said:
se cammuffano l'user-agent non sfuggono ANCHE a .htaccess?
Purtroppo si...
in questo caso devi fare attenzione ai tuoi logs, guardando la coerenza dei referer e degli Ip. Un traffico 'innaturale' deve farti alzare il livello di guardia. Solitamente quando gli harvester trovano qualche trucchetto, se ne parla nei groups: http://groups.google.it/group/alt.spam@Tambu said:
o intendevi che, ammesso che l'user agent non venga cammuffato, alcuni se ne fregano del robots.txt ma NON possono ignorare htaccess?
La lista fornita da MarcoTuscany copre una più che consistente fetta di mercato, e l'htaccess non è bypassabile da qualsiasi programma utilizzi gli user agenti elencati.In aggiunta, per chi vuole, di sotto ci sono gli user agent dei classici download manager (pragrammi che permettono la copia in locale dell'intero sito). Non sono spam, ma ciucciano banda che è un piacere...
GetRight/3.x.x GetRight/4.5xx GetRight/4.x GetRight/4.x[a-e] GetRightPro/6.0beta2 Go!Zilla 3.x Go!Zilla/4.x.x.xx DA 3.5 (www.lidan.com) DA 4.0 DA 4.0 (www.downloadaccelerator.com) DA 5.0 DA 7.0
Ce ne sono molti altri comunque, se riesco a fare una bella lista completa la posto qui.
E per finire, una gustosa citazione di come siano diventati 'bravi' (siamo in 'Posizionamento nei motori di ricerca', eviterei ogni discussione su quanto sia etico ciò che viene suggerito.........comunque secondo me non lo è!
@FAQ di Download Accelerator Plus said:
How to use Download Accelerator Plus to download files from sites that do not support the use of download managers? - [ossia quei siti che lo hanno bloccato da htaccess . Nda]
Open DAP, click the "Tools" menu -> "Options", enter "Connection" on the screen that you get and select your browser from the drop down list of the "User Agent" in order to allow it to download files from sites that do not support the use of download managers. To return to Default Values, select DA 7.0 again.()
Cordialmente,
Stuart
-
Come vi regolate per attacchi (exploit) al vostro sito da ip diversi?
SalutiDario
-
Se avete accesso diretto alla configurazione del vostro webserver, solitamente è disponibile una funzione di limitazione della banda, che può esser utile dove l'utilizzo di un htaccess non può parare. Nel caso di apache2, mod_cband fa il suo dovere limitando:
- L’uso totale di banda in un determinato periodo
- La velocità massima di download
- Il numero massimo di richieste al secondo
- Il numero massimo di connessioni per ip
Così gli harvester non bloccati da htaccess continueranno a girare indisturbati per il sito, ma almeno lo faranno in maniera più "soft".
-
grazie a tutti anche da parte mia