- Home
- Categorie
- Coding e Sistemistica
- WordPress
- Il file robots.txt per una indicizzazione migliore
-
Eccolo
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: User-agent: MSNBot Disallow: User-agent: Slurp Disallow: User-agent: Teoma Disallow: User-agent: Gigabot Disallow: User-agent: Scrubby Disallow: User-agent: Robozilla Disallow: User-agent: BecomeBot Disallow: User-agent: Nutch Disallow: User-agent: Fast Disallow: User-agent: Scooter Disallow: User-agent: Mercator Disallow: User-agent: Ask Jeeves Disallow: User-agent: teoma_agent Disallow: User-agent: ia_archiver Disallow: User-agent: BizBot04 kirk.overleaf.com Disallow: User-agent: HappyBot (gserver.kw.net) Disallow: User-agent: CaliforniaBrownSpider Disallow: User-agent: EI*Net/0.1 libwww/0.1 Disallow: User-agent: Ibot/1.0 libwww-perl/0.40 Disallow: User-agent: Merritt/1.0 Disallow: User-agent: StatFetcher/1.0 Disallow: User-agent: TeacherSoft/1.0 libwww/2.17 Disallow: User-agent: WWW Collector Disallow: User-agent: processor/0.0ALPHA libwww-perl/0.20 Disallow: User-agent: wobot/1.0 from 206.214.202.45 Disallow: User-agent: Libertech-Rover www.libertech.com? Disallow: User-agent: WhoWhere Robot Disallow: User-agent: ITI Spider Disallow: User-agent: w3index Disallow: User-agent: MyCNNSpider Disallow: User-agent: SummyCrawler Disallow: User-agent: OGspider Disallow: User-agent: linklooker Disallow: User-agent: CyberSpyder ([email protected]) Disallow: User-agent: SlowBot Disallow: User-agent: heraSpider Disallow: User-agent: Surfbot Disallow: User-agent: Bizbot003 Disallow: User-agent: WebWalker Disallow: User-agent: SandBot Disallow: User-agent: EnigmaBot Disallow: User-agent: spyder3.microsys.com Disallow: User-agent: www.freeloader.com. Disallow: User-agent: 205.252.60.71 Disallow: User-agent: 194.20.32.131 Disallow: User-agent: 198.5.209.201 Disallow: User-agent: acke.dc.luth.se Disallow: User-agent: dallas.mt.cs.cmu.edu Disallow: User-agent: darkwing.cadvision.com Disallow: User-agent: waldec.com Disallow: User-agent: www2000.ogsm.vanderbilt.edu Disallow: User-agent: unet.ca Disallow: User-agent: murph.cais.net (rapid fire... sigh) Disallow: User-agent: www.freeloader.com Disallow: User-agent: * Disallow: /cartella da escludere/ Sitemap: http://miosito.it/sitemap.xml
-
ma a cosa serve ripetere le stesse regole per ogni bot? non e' inutile?
La mia non e' una critica, dato che ci capisco poco di robots.txtCiao, Dario.
-
Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo
User-agent: * Disallow:
Ma non volevo escludere nessun bot
Alla fine è la stessa cosa
Ora ho letto [url=http://www.robotstxt.org/wc/active/html/index.html]il DB con tutti i robots quasi quasi ne aggiungo qualcuno.
-
Mi aggrego alla discussione (perché interessa anche a me ). Su askapache consiglia:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads
Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag <!--MORE--> e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...
Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?
Ovviamente faccio queste considerazioni per quel niubbo che sono (per questo, chiedo a voi esperti...)
-
Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due alloraPer il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.
I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.Appunto
Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.
Per maggiori delucidazioni basta leggere quì ;). Inoltre è possibile verificare la corretta funzionalità del file utilizzando [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool
-
@cionfs said:
Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due alloraPer il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.
I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress).
Quindi tu lascerestiUser-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /*?* Disallow: /*? ```da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? ;) (quindi... wordpress va QUASI bene così com'è?) Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante :D in materia). EDIT: Questa l'aggiungiamo?
Sitemap: http://www.miosito.com/sitemap.xml
EDIT 2: ops, ho visto solo adesso che già l'usavi ;)
-
Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando ) e di conseguenza fornirebbero maggiori ingressi.
Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.
All IMHO
-
Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)
-
Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi.
La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazioneAll IMHO
-
scusate, sarà forse banala ma:
se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere
User-agent: *
Disallow: /grazie
-
trovata risposta, grazie cmq.
-