Il file robots.txt per una indicizzazione migliore

dario99

Il file robots.txt per una indicizzazione migliore

Ciao a tutti, seguendo un post su un blog ho modificato il file robots.txt del mio blog su WordPress in questo modo:

User-agent: *
Disallow: /*/feed/
Disallow: /*/feed/rss/
Disallow: /*/trackback/
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /tag/
Sitemap: http://www.tuosito.com/sitemap.xml

un file robots.txt fatto così dovrebbe favorire una indicizzazione piu' rapida e senza troppi duplicati dei nostri contenuti, siete daccordo? e' fatto bene? cosa cambiereste?

Ciao e grazie

cionfs

Non sò cosa potrebbe non andare nel tuo però ti faccio vedere io cosa ho (contando che vado per i 200 accessi al giorno)


Allow Googlebot
User-agent: googlebot
Allow: /

User-agent: Googlebot-AdSense
Allow: /

User-agent: Mediapartners-Google*
Allow: /

User-agent: Slurp/2.0
Allow: /

User-agent: MSNbot
Allow: /

User-agent: kinjabot
Allow: /

User-agent: ia_archiver
Allow: /

User-agent: ArchitextSpider
Allow: /

cionfs

Ciao dario99,
dopo un pò di ricerche sono riuscito a verificare e a migliorare (grazie al tuo post) il mio file robots.txt aggiungendo degli spider e verificando diverse cose.

Secondo me queste righe:


Disallow: /*/feed/
Disallow: /*/feed/rss/
Disallow: /*/trackback/
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
 Disallow: /tag/

```Dovresti modificarle così:

Disallow: //feed/
Disallow: //feed/rss/
Disallow: /*/trackback/
Disallow: /wp-

In quanto, secondo me, non vale la pena disabilitare i tags e i trackback visto che potrebbero risultare utili. :)

Parere personale opinabile :) mi piacerebbe sapere gli altri che ne pensano :)

PS: per verificare la funzionalità e l'efficienza del file robots.txt ho utilizzato [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool che permette di verificare cosa va e cosa meno, le modifiche da apportare e gli errori che vengono dati. ;)

dario99

ciao effettivamente ho fatto anche io delle modifiche al file precedentemente postato, e come hai fatto tu ho tolto le seguenti righe:

Disallow: /feed/
Disallow: /trackback/
```i dubbi rimangono su /tag/ perche' ci sarebbe una ripetizione eccessiva secondo me...

Grazie per il suggerimento del tool ;)

Ciao, Dario.

cionfs

Oltre i soliti bot/agent ne ho aggiunti altri ed ho modificato il mio file robots.txt. Se vuoi posso postare quì tutto così si vede cosa va e cosa meno :). Ti dico solo una cosa. Con tutti quelli che ho messo sono arrivato a 43 robots collegati contemporaneamente nell'arco di 1 minuto

dario99

posta pure

comunque il mio robots.txt si riferisce a questo sito qui: www.blognapoli.net

Ciao, Dario.

cionfs

Eccolo



User-agent: Googlebot
Disallow: 

User-agent: Googlebot-Image
Disallow:

User-agent: MSNBot
Disallow:

User-agent: Slurp
Disallow:

User-agent: Teoma
Disallow:

User-agent: Gigabot
Disallow:

User-agent: Scrubby
Disallow:

User-agent: Robozilla
Disallow:

User-agent: BecomeBot
Disallow:

User-agent: Nutch
Disallow:

User-agent: Fast
Disallow:

User-agent: Scooter
Disallow:

User-agent: Mercator
Disallow:

User-agent: Ask Jeeves
Disallow:

User-agent: teoma_agent
Disallow:

User-agent: ia_archiver
Disallow:

User-agent: BizBot04 kirk.overleaf.com
Disallow:

User-agent: HappyBot (gserver.kw.net)
Disallow:

User-agent: CaliforniaBrownSpider
Disallow:

User-agent: EI*Net/0.1  libwww/0.1
Disallow:

User-agent: Ibot/1.0 libwww-perl/0.40    
Disallow:

User-agent: Merritt/1.0
Disallow:

User-agent: StatFetcher/1.0
Disallow:

User-agent: TeacherSoft/1.0  libwww/2.17
Disallow:

User-agent: WWW Collector
Disallow:

User-agent: processor/0.0ALPHA libwww-perl/0.20
Disallow:

User-agent: wobot/1.0 from 206.214.202.45
Disallow:

User-agent: Libertech-Rover         www.libertech.com?
Disallow:

User-agent: WhoWhere Robot
Disallow:

User-agent: ITI Spider
Disallow:

User-agent: w3index
Disallow:

User-agent: MyCNNSpider
Disallow:

User-agent: SummyCrawler
Disallow:

User-agent: OGspider
Disallow:

User-agent: linklooker
Disallow:

User-agent: CyberSpyder ([email protected])
Disallow:

User-agent: SlowBot
Disallow:

User-agent: heraSpider
Disallow:

User-agent: Surfbot
Disallow:

User-agent: Bizbot003
Disallow:

User-agent: WebWalker
Disallow:

User-agent: SandBot
Disallow:

User-agent: EnigmaBot
Disallow:

User-agent: spyder3.microsys.com
Disallow:

User-agent: www.freeloader.com.
Disallow:

User-agent: 205.252.60.71
Disallow:

User-agent: 194.20.32.131
Disallow:

User-agent: 198.5.209.201
Disallow:

User-agent: acke.dc.luth.se
Disallow:

User-agent: dallas.mt.cs.cmu.edu
Disallow:

User-agent: darkwing.cadvision.com
Disallow:

User-agent: waldec.com
Disallow:

User-agent: www2000.ogsm.vanderbilt.edu
Disallow:

User-agent: unet.ca
Disallow:

User-agent: murph.cais.net (rapid fire... sigh)
Disallow:

User-agent: www.freeloader.com
Disallow:

User-agent: *
Disallow: /cartella da escludere/

Sitemap: http://miosito.it/sitemap.xml

dario99

ma a cosa serve ripetere le stesse regole per ogni bot? non e' inutile?
La mia non e' una critica, dato che ci capisco poco di robots.txt

Ciao, Dario.

cionfs

Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo


User-agent: *
Disallow:

Ma non volevo escludere nessun bot

Alla fine è la stessa cosa

Ora ho letto [url=http://www.robotstxt.org/wc/active/html/index.html]il DB con tutti i robots quasi quasi ne aggiungo qualcuno.

notorious

Mi aggrego alla discussione (perché interessa anche a me ). Su askapache consiglia:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag  e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...

Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?

Ovviamente faccio queste considerazioni per quel niubbo che sono (per questo, chiedo a voi esperti...)

cionfs

Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora

Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

Appunto

Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.

Per maggiori delucidazioni basta leggere quì ;). Inoltre è possibile verificare la corretta funzionalità del file utilizzando [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool

notorious

@cionfs said:

Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora

Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress).
Quindi tu lasceresti


User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /*?*
Disallow: /*?
```da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? ;) (quindi... wordpress va QUASI bene così com'è?)
Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante :D in materia).

EDIT: Questa l'aggiungiamo?

Sitemap: http://www.miosito.com/sitemap.xml

EDIT 2: ops, ho visto solo adesso che già l'usavi ;)

cionfs

Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando ) e di conseguenza fornirebbero maggiori ingressi.
Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.

L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.

All IMHO

notorious

Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)

cionfs

Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi.
La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazione

All IMHO

maiuei

scusate, sarà forse banala ma:

se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere

User-agent: *
Disallow: /

grazie

maiuei

trovata risposta, grazie cmq.

yurx

askapache.com/seo/seo-with-robotstxt.html