• User Attivo

    Togliere dall'indicizzazione le varie Page di Wordpress

    Vorrei togliere dall'indicizzazione le pagine iniziali di Wordpress quelle che seguono in questa maniera all'url del sito:

    www(.)miosito(.)it/page/1
    www(.)miosito(.)it/page/2
    www(.)miosito(.)it/page/3

    e che raccolgono tutti gli articoli pubblicati.
    Vengono generate all'infinito queste pagine? non lo ho capito perchè ho solo una cinquantina di articoli.

    Utilizzo All in One Seo ma non permette di farlo, ho provato altri plugin Seo ma alcuni mi creano problemi all'installazione di Wordpress.
    Conoscete un modo per farlo, magari manualmente se possibile.
    Grazie.


  • User Attivo

    Blocca l'indicizzazione con il file robots.txt

    disabilitando
    /page


  • User Attivo

    Ti posso chiedere come mai vuoi toglierle dall'indicizzazione? E' perché pensi che possano essere considerate pagine duplicate oltre a quelle dei singoli articoli?


  • User Attivo

    Le indicazioni di google sono queste, di evitare duplicati. Non ho mai fatto test che mi dimostrino l'utilità della cosa.


  • User Attivo

    Ok...ma allora così devi disabilitare anche /category, /archive (se visualizzi gli articoli anche nelle categorie e negli archivi) a meno che tu non mostri gli articoli in anteprima duplicando così una quantità di testo irrilevante ed eliminando il problema a monte.


  • User Attivo

    si, infatti le varie categorie, gli archivi e i tag sono già esclusi tramite le opzioni che mette a disposizione All in One Seo.

    Comunque ora ho aggiunto l'esclusione delle page nel robots.txt,

    io credevo che il robots funzionasse solamente non permettendo l'accesso a cartelle fisiche del ftp invece da quello che dite funziona anche per escludere url generati dal cms, quindi la soluzione sempra essere più semplice del previsto.


  • ModSenior

    Fai attenzione però che con il file robots tu escludi solo il passaggio del crawler dei motori di ricerca non impedisci loro di indicizzare le pagine se trovano il link ad esse in un altro modo.
    @Google Webmaster Help said:

    Anche se Google non eseguirà la scansione o l'indicizzazione dei contenuti delle pagine bloccate dal file robots.txt, potrà comunque indicizzare gli URL trovati su altre pagine web.
    [...]
    Per impedire che i contenuti di una pagina vengano elencati nell'indice web di Google anche se altri siti contengono link ad essa, utilizza un metatag noindex. Quando analizza la pagina, Googlebot riconosce il metatag noindex e impedisce la visualizzazione della pagina nell'indice web.

    Quindi per escludere una pagina dall'indicizzazione devi inserire > <meta name="robots" content="noindex"> nella sezione head delle pagine che tu vuoi non siano indicizzate.
    Ovviamente il crawler deve poter accedere alla pagina e scansionarla quindi non gli deve essere bloccato l'accesso nel file robots.txt

    Se il tuo plugin SEO non ti permette di escludere le sottopagine, o cambi plugin con uno che ha questa funzione, oppure puoi modificare il tuo template andando ad aggiungere qualcosa di simile:

    <?php if (is_paged()) { ?>
    <meta name=?robots? content=?noindex,follow? />
    <?php } ?>
    is_paged() è una funzione di Wordpress che restituisce vero solo se viene richiamato dalle pagine 2 in avanti.

    Valerio Notarfrancesco


  • User Attivo

    Grazie per la risposta completa vnotarfrancesco.

    Qualcuno sa quante "page" vengono generate massimo da wordpress?
    Un idea alternativa potrebbe essere abbassare il limite se sono tante. magari a 1.


  • User Attivo

    Le pagine vengono generate in base a quanti articoli hai postato.
    Hai 50 articoli e nelle impostazioni hai deciso di visualizzare 10 post in home page? Avrai 5 pagine.

    Ti consiglio WordPress SEO by Yoast, un ottimo plugin SEO che tra le molte funzioni ha anche quella di bloccare l'indicizzazione delle subpages.


  • User

    Manetta, la funzione di cui parli per disabilitare le subpages è questa?

    Sottopagine di archivi e tassonomie
    Previeni l'indicizzazione da parte dei motori di ricerca (non dal crawling e dal following dei link) delle sottopagine di tassonomie ed archivi.

    Perchè non vorrei bloccare le sottopagine inerenti ad un menù.

    Grazie
    Dezio


  • User Attivo

    Mi aggiungo alla lista 🙂 Premessa, non ho provato il plugin ma sembra interessante per quello che vuoi fare artasdog.

    http://wordpress.org/extend/plugins/ultimate-noindex-nofollow-tool/


  • User

    Con YOAST qualcosa puoi fare, però se decidi di togliere le subpages te le toglie tutte.. e nel caso in cui crei un articolo a "multi-pagina" rimani fregato..


  • User Attivo

    @vnotarfrancesco said:

    Fai attenzione però che con il file robots tu escludi solo il passaggio del crawler dei motori di ricerca non impedisci loro di indicizzare le pagine se trovano il link ad esse in un altro modo.
    Valerio Notarfrancesco

    Scusa, sei sicuro di quello che dici? Se tu inibisci googlebot dall'accedere a queste pagine, google saprà che esistono, però non potrà conoscerne il contenuto, quindi usare robots.txt mi sembra la soluzione corretta. Dico io...


  • ModSenior

    Si sono sicuro altrimenti non mi sarei permesso di scriverlo.
    Leggi qua: http://support.google.com/webmasters/bin/answer.py?hl=it&answer=156449

    @Google Webmaster Help said:

    [...]
    Anche se Google non eseguirà la scansione o l'indicizzazione dei contenuti delle pagine bloccate dal file robots.txt, potrà comunque indicizzare gli URL trovati su altre pagine web. Di conseguenza, l'URL della pagina e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali il testo di ancoraggio nei link al sito o il titolo fornito dall'Open Directory Project [...], possono essere visualizzati nei risultati di ricerca di Google.
    [...]
    Per impedire che i contenuti di una pagina vengano elencati nell'indice web di Google anche se altri siti contengono link a essa, utilizza un noindex meta tag or x-robots-tag.

    E ancora qua: http://support.google.com/webmasters/bin/answer.py?hl=it&answer=93710

    @Google Webmaster Help said:

    Per impedire che i contenuti di una pagina vengano elencati nell'indice web di Google anche se altri siti contengono link ad essa, utilizza un metatag noindex. Quando analizza la pagina, Googlebot riconosce il metatag noindex e impedisce la visualizzazione della pagina nell'indice web.

    Valerio Notarfrancesco