• User

    Escludere le pagine del blog

    Ciao ragazzi
    Spero sia la sezione giusta, per il problema in questione.

    Praticamente vorrei escludere dall'indicizzazione di Google delle pagine che sono state create in modo automatico ed errate nel mio blog

    Queste url finiscono tutte con il nome a dominio :

    miodominio.com/.../miodominio.com

    Ora, attraverso il robots.txt ,vorrei escluderle, ma non sono sicuro del codice:

    User-agent: *
    Disallow: /*.../miodominio.com$

    La sintassi è esatta?

    Non vorrei escludere anche la mia home page ...

    Grazie.


  • User Attivo

    Ciao, premetto che non sono un esperto quindi in ogni caso aspetta il parere di chi è più competente di me.

    Se conosci gli indirizzi di queste pagine inseriscili nel robots.txt uno ad uno ovvero:

    Disallow: indirizzo1
    Disallow: indirizzo2
    ...

    Io stò facendo così per il mio blog (per esempio per escludere la pagina dei contatti, quella della policy) e funziona.

    Ovviamente ti conviene farlo se hai la certezza che di queste pagine errate non se ne creeranno più; altrimenti devi utilizzare un codice generico (del tipo che ai proposto tu) per prevenire l'indicizzazione di quelle future.


  • User

    Grazie Gendif della risposta, ma come hai scritto le url si autorigenerano in quel modo !
    Quindi dovrei usare un altro sistema , che l'esclusione manuale:bho: .


  • User

    Potrebbe essere questa la sintassi esatta ?

    User-agent: *
    Disallow: /*nomedominio.com$

    O cosi' escludo anche la home page ? :mmm:


  • User Attivo

    Ufficialmente secondo gli standard del Robots.txt non sono ammessi WIldcard e Globbing ( http://www.robotstxt.org/robotstxt.html )

    Note also that globbing and regular expression are not supported in either the User-agent or Disallow lines. The '' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "User-agent: bot", "Disallow: /tmp/" or "Disallow: *.gif".

    In realtà Google va oltre lo standard e ne interpreta qualcuno
    http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40367

    Credo che dovrebbe andare bene quello che scrivi te. (Prova e vediamo cosa succede)

    Ma il problema qual è ? hai URL duplicate?

    Sarebbe meglio a riscrivere il codice per ottenere URL corrette... Così si facilita anche l'utente che legge.
    Un'altra alternativa, molto semplice è l'utilizzo del REl="canonical" con cui comunichi a Google qual è l'URL ufficiale


  • User

    @luca said:

    [***]

    Grazie Luca 🙂
    Ora proverò a testare il robots.txt come dici te !
    IL mio problema è che wordpress autogenera quelle url e non riusciamo a capire cosa possa essere o quale pezzo di codice possa interferire:x

    Oltre a generare delle url che finiscono con il nome a dominio,sono oltretutto create di sana pianta con altri dati aggiuntivi.
    Esempio:

    miodominio/189/miodominio
    miodominio/20/08/09/miodominio

    Non abbiamo mai fatto dei post con la data o con indentificazione numerica :mmm:

    In pratica google me le segnala come errore 404 (ovviamente) e sono più di duecento!:(

    Hai esperienza in merito?
    :ciauz:


  • Super User

    Se google te le segnala come 404 da qualche parte deve prenderli quei link.

    Su google webmaster central tool dovrebbe dirti dove ha preso quel link, nella sezione Diagnostica > Errori di scansione > Non ragiungibili - > colonna "collegato da"

    Comunque da quanto dici mi fai pensare ad una sitemap settata male, avete per caso installato il plugin per la sitemap?

    :ciauz:


  • User

    @franseo said:

    [***]
    Ciao franseo 🙂

    Sono riuscito a trovare il codice del robots.txt per escludere le url ,ho testato con "analizza file robots" una decina di url e mi dava "Bloccato dalla riga 135".
    sembrava a posto,invece googlebot è passato circa 2 ore fà e me ne blocca solo 7 di url su 240 :mmm:
    Me ne esclude un tot alla volta?
    Mi sembra strano questa cosa :arrabbiato:

    Su google webmaster mi segnala :

    HTTP ‎(0)‎ - Nelle Sitemap ‎(0)‎ - Non raggiungibile ‎(0)‎ - Non seguito ‎(0)‎ - Non trovato ‎(236)‎ - Soggetto a restrizioni da robots.txt ‎(7)‎ - Time out ‎(0)‎

    Non mi dà errore nella sitemap anche se mi ci fai pensare ho provato ad installare 3 plugin per wordpress prima di trovare quello adatto:

    XML Sitemaps di Denis de Bernardy

    Ho provato a controllare la sitemap ,ma non ci sono traccia delle url incriminate :mmm:

    Può essere altro?
    :mmm: