- Home
- Categorie
- Coding e Sistemistica
- Hosting e Cloud
- robots.txt e consumo banda
-
robots.txt e consumo banda
Ciao a tutti, ho notato nel mio ecommerce un elevato consumo di banda, volevo chiedervi questo:
se io volessi limitare l'accesso solo ad uno spider sarebbe giusto scrivere nel file robots questo?User-agent: *
Disallow: /
User-agent: slurp
Disallow: /admin/Sitemap: hxxp://www_miosito_it/sitemapindex.xml
in questo modo disabilito tutto gli spider ad eccezione di slurp yahoo (e in slurp gli disabilito una cartella)?
E' corretto scrivere così?In quanto tempo vedo che gli spider se ne vanno? perchè se vado sul mio ecommerce con questo file robots, vedo ancora google bot e un altro spider yanga (che ho letto da qualche parte essere malevolo) che vorrei eliminare.
Farei così e poi modificherei tipo ogni settimana manualmente il file robots per dire a google di passare ogni settimana, diversamente tutti mi consumano la banda, e ne ho 1Mb in upload!!!
Grazie in anticipo
-
No in quel caso stai semplicemente escludendo tutti i bot.
Se vuoi tener fuori google ad esempio devi scrivere
User-agent: Googlebot Disallow: /
ad ogni modo per quanto riguarda google puoi iscriverti alla sezione webmaster tools e da lì puoi indicare al bot quando passare, dove passare, ecc...
Invece riguardo questo yanga è un bot russo ed è noto per non rispettare il robots.txt, quindi con quel metodo non risolvi nulla.
L'unico modo è usare .htaccess in questo modo
BrowserMatchNoCase Yanga bad_bot Order Deny,Allow Deny from env=bad_bot
ovviamente al posto di Yanga devi mettere l'user agent string precisa che compare nelle tue stats.
Se quel bot dovesse usare anche altri user agent allora non ti resta che bannarlo per ip tramite .htaccess o se proprio dà fastidio bannarlo tramite firewall.
-
grazie per la risposta rapida, vediamo se ho capito
quindi se io volessi limitare per esempio solo a yahoo di analizzare il sito ad eccezione della cartella miacartella dovrei scrivere
User-agent: Googlebot
Disallow: /
User-agent: Slurp
Disallow: /miacartellain questo modo tutte le altre cartelle verrebbero viste da slurp ma non da google è corretto?
Dove vedo invece il nome dello spider?
leggo per esempio sul mio ecommerce
host:
baiduspider+il nome esatto è con tutti gli spazi che vedo e i + per esempio? o c'è un elenco dei nomi corretti dello spider?
Nel mio caso avrei dovuto scrivere questo?
User-agent: baiduspider+
Disallow: /Chiedo dove vedere il nome esatto dello spider anche per il file htaccess per sapere cosa scrivere al posto per esempio di yanga.
Infine ultima cosa per bannare gli ip è corretto scrivere così nel file htaccess?
Order deny,allow
Deny from 91_205_124_21 #blocca l'accesso a yangmolti bot hanno più ip, dove trovo tutti gli ip degli spider?
Ti ringrazio molto davvero
-
@giuly said:
quindi se io volessi limitare per esempio solo a yahoo di analizzare il sito ad eccezione della cartella miacartella dovrei scrivere
User-agent: Googlebot
Disallow: /
User-agent: Slurp
Disallow: /miacartellaEsattamente, in questo caso il primo Disallow si riferisce solo a google, il secondo solo a yahoo, tutti gli altri possono leggere qualsiasi pagina.
Dove vedo invece il nome dello spider?
leggo per esempio sul mio ecommerce
host:
baiduspider+in genere i programmi di statistiche tipo Awstats riportano gli useragent
il nome esatto è con tutti gli spazi che vedo e i + per esempio? o c'è un elenco dei nomi corretti dello spider?
no i nomi degli useragent vengono scelti dal bot che ti contatta e sono stringhe, il programma di statistiche li registra e poi li visualizza così come gli sono arrivati e devi aggiungerli ad .htaccess così come appaiono nella pagina delle statistiche
Nel mio caso avrei dovuto scrivere questo?
User-agent: baiduspider+
Disallow: /si, però mi sa che l'useragent non è quello, baidu usa questi http://www.useragentstring.com/pages/Baiduspider/
Chiedo dove vedere il nome esatto dello spider anche per il file htaccess per sapere cosa scrivere al posto per esempio di yanga.
nella pagina delle statistiche per il dominio
Infine ultima cosa per bannare gli ip è corretto scrivere così nel file htaccess?
Order deny,allow
Deny from 91_205_124_21 #blocca l'accesso a yangno dovresti scrivere una cosa del genere
order allow,deny deny from 192.168.44.201 deny from 224.39.163.12 deny from 172.16.7.92 allow from all
molti bot hanno più ip, dove trovo tutti gli ip degli spider?
Ti ringrazio molto davvero
-
grazie milleeeeeeeee davvero completa la risposta, ho
36.86% MSIE 7
21.78% Mozilla/5
17.97% MSIE 6
7.01% Googlebot/2
5.39% MSIE 8
4.12% TwengaBot/1.1 (+hxxp://www_twenga_com/bot.html)
2.64% Yahoo! Slurp/3
0.99% Yanga WorldSearch Bot v1.1/beta (hxxp://www_yanga_co_uk/)
0.69% Googlebot-Image/1.0
0.55% Opera/9
0.40% msnbot/1.1 (+hxxp://search_msn_com/msnbot.htm)
0.21% Mozilla/4.0 (compatible;)
0.18% msnbot-media/1.1 (+hxxp://search_msn_com/msnbot.htm)
0.17% Baiduspider+(+hxxp://www_baidu_com/search/spider.htm)
0.16% Vodafone/1.0/0Vodafone830/B116SP04 Browser/Obigo-Browser/Q05A MMS/Obigo-MMS/Q05A SyncML/HW-SyncML/1.0 Java/HWJa/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 Player/QTV-Player/5.3 UP.Link/6.3.1.21.0presi dalle statistiche, quindi per esempio per yanga il nome è
Yanga WorldSearch Bot v1.1/beta questo?
inoltre me li vede come spider anche vodafone, Opera, Mozilla, ma quelli sono i navigatori giusto?Sei stato gentilissimo e ultra chiaro, ho capito tutto il discorso sopra.
-
no la stringa da usare è questa Yanga WorldSearch Bot v1.1/beta (hxxp://www_yanga_co_uk/)
-
grazie mille sembrano cose semplici ma per chi non è "del mestiere" non è così.
Spiegazione punto punto perfetta
entro domani applico tutto
grazie ancora