- Home
- Categorie
- Coding e Sistemistica
- WordPress
- Il file robots.txt per una indicizzazione migliore
-
Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo
User-agent: * Disallow:
Ma non volevo escludere nessun bot
Alla fine è la stessa cosa
Ora ho letto [url=http://www.robotstxt.org/wc/active/html/index.html]il DB con tutti i robots quasi quasi ne aggiungo qualcuno.
-
Mi aggrego alla discussione (perché interessa anche a me ). Su askapache consiglia:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads
Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag <!--MORE--> e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...
Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?
Ovviamente faccio queste considerazioni per quel niubbo che sono (per questo, chiedo a voi esperti...)
-
Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due alloraPer il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.
I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.Appunto
Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.
Per maggiori delucidazioni basta leggere quì ;). Inoltre è possibile verificare la corretta funzionalità del file utilizzando [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool
-
@cionfs said:
Ciao notorious,
per quanto riguarda l'essere "niubbi" in wordpress siamo in due alloraPer il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.
I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress).
Quindi tu lascerestiUser-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /*?* Disallow: /*? ```da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? ;) (quindi... wordpress va QUASI bene così com'è?) Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante :D in materia). EDIT: Questa l'aggiungiamo?
Sitemap: http://www.miosito.com/sitemap.xml
EDIT 2: ops, ho visto solo adesso che già l'usavi ;)
-
Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando ) e di conseguenza fornirebbero maggiori ingressi.
Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.
All IMHO
-
Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)
-
Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi.
La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazioneAll IMHO
-
scusate, sarà forse banala ma:
se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere
User-agent: *
Disallow: /grazie
-
trovata risposta, grazie cmq.
-