- Home
- Categorie
- Coding e Sistemistica
- WordPress
- Il file robots.txt per una indicizzazione migliore
-
Il file robots.txt per una indicizzazione migliore
Ciao a tutti, seguendo un post su un blog ho modificato il file robots.txt del mio blog su WordPress in questo modo:
User-agent: * Disallow: /*/feed/ Disallow: /*/feed/rss/ Disallow: /*/trackback/ Disallow: /wp- Disallow: /feed/ Disallow: /trackback/ Disallow: /tag/ Sitemap: http://www.tuosito.com/sitemap.xml
un file robots.txt fatto così dovrebbe favorire una indicizzazione piu' rapida e senza troppi duplicati dei nostri contenuti, siete daccordo? e' fatto bene? cosa cambiereste?
Ciao e grazie
-
Non sò cosa potrebbe non andare nel tuo però ti faccio vedere io cosa ho (contando che vado per i 200 accessi al giorno)
Allow Googlebot User-agent: googlebot Allow: / User-agent: Googlebot-AdSense Allow: / User-agent: Mediapartners-Google* Allow: / User-agent: Slurp/2.0 Allow: / User-agent: MSNbot Allow: / User-agent: kinjabot Allow: / User-agent: ia_archiver Allow: / User-agent: ArchitextSpider Allow: /
-
Ciao dario99,
dopo un pò di ricerche sono riuscito a verificare e a migliorare (grazie al tuo post) il mio file robots.txt aggiungendo degli spider e verificando diverse cose.Secondo me queste righe:
Disallow: /*/feed/ Disallow: /*/feed/rss/ Disallow: /*/trackback/ Disallow: /wp- Disallow: /feed/ Disallow: /trackback/ Disallow: /tag/ ```Dovresti modificarle così:
Disallow: //feed/
Disallow: //feed/rss/
Disallow: /*/trackback/
Disallow: /wp-In quanto, secondo me, non vale la pena disabilitare i tags e i trackback visto che potrebbero risultare utili. :) Parere personale opinabile :) mi piacerebbe sapere gli altri che ne pensano :) PS: per verificare la funzionalità e l'efficienza del file robots.txt ho utilizzato [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool che permette di verificare cosa va e cosa meno, le modifiche da apportare e gli errori che vengono dati. ;)
-
ciao effettivamente ho fatto anche io delle modifiche al file precedentemente postato, e come hai fatto tu ho tolto le seguenti righe:
Disallow: /feed/ Disallow: /trackback/ ```i dubbi rimangono su /tag/ perche' ci sarebbe una ripetizione eccessiva secondo me... Grazie per il suggerimento del tool ;) Ciao, Dario.
-
Oltre i soliti bot/agent ne ho aggiunti altri ed ho modificato il mio file robots.txt. Se vuoi posso postare quì tutto così si vede cosa va e cosa meno :). Ti dico solo una cosa. Con tutti quelli che ho messo sono arrivato a 43 robots collegati contemporaneamente nell'arco di 1 minuto
-
posta pure
comunque il mio robots.txt si riferisce a questo sito qui: www.blognapoli.net
Ciao, Dario.
-
Eccolo
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: User-agent: MSNBot Disallow: User-agent: Slurp Disallow: User-agent: Teoma Disallow: User-agent: Gigabot Disallow: User-agent: Scrubby Disallow: User-agent: Robozilla Disallow: User-agent: BecomeBot Disallow: User-agent: Nutch Disallow: User-agent: Fast Disallow: User-agent: Scooter Disallow: User-agent: Mercator Disallow: User-agent: Ask Jeeves Disallow: User-agent: teoma_agent Disallow: User-agent: ia_archiver Disallow: User-agent: BizBot04 kirk.overleaf.com Disallow: User-agent: HappyBot (gserver.kw.net) Disallow: User-agent: CaliforniaBrownSpider Disallow: User-agent: EI*Net/0.1 libwww/0.1 Disallow: User-agent: Ibot/1.0 libwww-perl/0.40 Disallow: User-agent: Merritt/1.0 Disallow: User-agent: StatFetcher/1.0 Disallow: User-agent: TeacherSoft/1.0 libwww/2.17 Disallow: User-agent: WWW Collector Disallow: User-agent: processor/0.0ALPHA libwww-perl/0.20 Disallow: User-agent: wobot/1.0 from 206.214.202.45 Disallow: User-agent: Libertech-Rover www.libertech.com? Disallow: User-agent: WhoWhere Robot Disallow: User-agent: ITI Spider Disallow: User-agent: w3index Disallow: User-agent: MyCNNSpider Disallow: User-agent: SummyCrawler Disallow: User-agent: OGspider Disallow: User-agent: linklooker Disallow: User-agent: CyberSpyder ([email protected]) Disallow: User-agent: SlowBot Disallow: User-agent: heraSpider Disallow: User-agent: Surfbot Disallow: User-agent: Bizbot003 Disallow: User-agent: WebWalker Disallow: User-agent: SandBot Disallow: User-agent: EnigmaBot Disallow: User-agent: spyder3.microsys.com Disallow: User-agent: www.freeloader.com. Disallow: User-agent: 205.252.60.71 Disallow: User-agent: 194.20.32.131 Disallow: User-agent: 198.5.209.201 Disallow: User-agent: acke.dc.luth.se Disallow: User-agent: dallas.mt.cs.cmu.edu Disallow: User-agent: darkwing.cadvision.com Disallow: User-agent: waldec.com Disallow: User-agent: www2000.ogsm.vanderbilt.edu Disallow: User-agent: unet.ca Disallow: User-agent: murph.cais.net (rapid fire... sigh) Disallow: User-agent: www.freeloader.com Disallow: User-agent: * Disallow: /cartella da escludere/ Sitemap: http://miosito.it/sitemap.xml
-
ma a cosa serve ripetere le stesse regole per ogni bot? non e' inutile?
La mia non e' una critica, dato che ci capisco poco di robots.txtCiao, Dario.
-
Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo
User-agent: * Disallow:
Ma non volevo escludere nessun bot
Alla fine è la stessa cosa
Ora ho letto [url=http://www.robotstxt.org/wc/active/html/index.html]il DB con tutti i robots quasi quasi ne aggiungo qualcuno.
-
Mi aggrego alla discussione (perché interessa anche a me ). Su askapache consiglia:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads
Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag <!--MORE--> e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...
Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?
Ovviamente faccio queste considerazioni per quel niubbo che sono (per questo, chiedo a voi esperti...)
-
Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due alloraPer il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.
I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.Appunto
Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.
Per maggiori delucidazioni basta leggere quì ;). Inoltre è possibile verificare la corretta funzionalità del file utilizzando [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool
-
@cionfs said:
Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due alloraPer il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.
I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress).
Quindi tu lascerestiUser-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /*?* Disallow: /*? ```da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? ;) (quindi... wordpress va QUASI bene così com'è?) Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante :D in materia). EDIT: Questa l'aggiungiamo?
Sitemap: http://www.miosito.com/sitemap.xml
EDIT 2: ops, ho visto solo adesso che già l'usavi ;)
-
Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando ) e di conseguenza fornirebbero maggiori ingressi.
Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.
All IMHO
-
Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)
-
Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi.
La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazioneAll IMHO
-
scusate, sarà forse banala ma:
se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere
User-agent: *
Disallow: /grazie
-
trovata risposta, grazie cmq.
-