• Super User

    Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo

    
    User-agent: *
    Disallow:
    
    

    Ma non volevo escludere nessun bot 🙂

    Alla fine è la stessa cosa 🙂

    Ora ho letto [url=http://www.robotstxt.org/wc/active/html/index.html]il DB con tutti i robots 🙂 quasi quasi ne aggiungo qualcuno. 🙂


  • User Attivo

    Mi aggrego alla discussione (perché interessa anche a me 😛 ). Su askapache consiglia:

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads
    
    

    Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag <!--MORE--> e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...

    Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?

    Ovviamente faccio queste considerazioni per quel niubbo che sono 😛 (per questo, chiedo a voi esperti...)


  • Super User

    Ciao notorious,
    per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora 😄

    Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

    I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
    Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

    Appunto

    Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.

    Per maggiori delucidazioni basta leggere quì ;). Inoltre è possibile verificare la corretta funzionalità del file utilizzando [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool 😉


  • User Attivo

    @cionfs said:

    Ciao notorious,
    per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora 😄

    Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

    I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
    Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

    Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress). 😄
    Quindi tu lasceresti

    
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /*?*
    Disallow: /*?
    ```da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? ;) (quindi... wordpress va QUASI bene così com'è?)
    Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante :D in materia).
    
    EDIT: Questa l'aggiungiamo?
    

    Sitemap: http://www.miosito.com/sitemap.xml

    EDIT 2: ops, ho visto solo adesso che già l'usavi ;)

  • Super User

    Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
    Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando 😉 ) e di conseguenza fornirebbero maggiori ingressi.
    Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro 😉 escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.

    L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.

    All IMHO


  • User Attivo

    Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)


  • Super User

    Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi. 🙂
    La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazione 😉

    All IMHO


  • User

    scusate, sarà forse banala ma:

    se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere

    User-agent: *
    Disallow: /

    grazie


  • User

    trovata risposta, grazie cmq.

    😉


  • User Attivo