Escludere le pagine del blog

barbara73

Escludere le pagine del blog

Ciao ragazzi
Spero sia la sezione giusta, per il problema in questione.

Praticamente vorrei escludere dall'indicizzazione di Google delle pagine che sono state create in modo automatico ed errate nel mio blog

Queste url finiscono tutte con il nome a dominio :

miodominio.com/.../miodominio.com

Ora, attraverso il robots.txt ,vorrei escluderle, ma non sono sicuro del codice:

User-agent: *
Disallow: /*.../miodominio.com$

La sintassi è esatta?

Non vorrei escludere anche la mia home page ...

Grazie.

gendif

Ciao, premetto che non sono un esperto quindi in ogni caso aspetta il parere di chi è più competente di me.

Se conosci gli indirizzi di queste pagine inseriscili nel robots.txt uno ad uno ovvero:

Disallow: indirizzo1
Disallow: indirizzo2
...

Io stò facendo così per il mio blog (per esempio per escludere la pagina dei contatti, quella della policy) e funziona.

Ovviamente ti conviene farlo se hai la certezza che di queste pagine errate non se ne creeranno più; altrimenti devi utilizzare un codice generico (del tipo che ai proposto tu) per prevenire l'indicizzazione di quelle future.

barbara73

Grazie Gendif della risposta, ma come hai scritto le url si autorigenerano in quel modo !
Quindi dovrei usare un altro sistema , che l'esclusione manuale:bho: .

barbara73

Potrebbe essere questa la sintassi esatta ?

User-agent: *
Disallow: /*nomedominio.com$

O cosi' escludo anche la home page ?

luca

Ufficialmente secondo gli standard del Robots.txt non sono ammessi WIldcard e Globbing ( http://www.robotstxt.org/robotstxt.html )

Note also that globbing and regular expression are not supported in either the User-agent or Disallow lines. The '' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "User-agent: bot", "Disallow: /tmp/" or "Disallow: *.gif".

In realtà Google va oltre lo standard e ne interpreta qualcuno
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40367

Credo che dovrebbe andare bene quello che scrivi te. (Prova e vediamo cosa succede)

Ma il problema qual è ? hai URL duplicate?

Sarebbe meglio a riscrivere il codice per ottenere URL corrette... Così si facilita anche l'utente che legge.
Un'altra alternativa, molto semplice è l'utilizzo del REl="canonical" con cui comunichi a Google qual è l'URL ufficiale

barbara73

@luca said:

[***]

Grazie Luca
Ora proverò a testare il robots.txt come dici te !
IL mio problema è che wordpress autogenera quelle url e non riusciamo a capire cosa possa essere o quale pezzo di codice possa interferire:x

Oltre a generare delle url che finiscono con il nome a dominio,sono oltretutto create di sana pianta con altri dati aggiuntivi.
Esempio:

miodominio/189/miodominio
miodominio/20/08/09/miodominio

Non abbiamo mai fatto dei post con la data o con indentificazione numerica

In pratica google me le segnala come errore 404 (ovviamente) e sono più di duecento!:(

Hai esperienza in merito?

franseo

Se google te le segnala come 404 da qualche parte deve prenderli quei link.

Su google webmaster central tool dovrebbe dirti dove ha preso quel link, nella sezione Diagnostica > Errori di scansione > Non ragiungibili - > colonna "collegato da"

Comunque da quanto dici mi fai pensare ad una sitemap settata male, avete per caso installato il plugin per la sitemap?

barbara73

@franseo said:

[***]
Ciao franseo

Sono riuscito a trovare il codice del robots.txt per escludere le url ,ho testato con "analizza file robots" una decina di url e mi dava "Bloccato dalla riga 135".
sembrava a posto,invece googlebot è passato circa 2 ore fà e me ne blocca solo 7 di url su 240
Me ne esclude un tot alla volta?
Mi sembra strano questa cosa

Su google webmaster mi segnala :

HTTP ‎(0)‎ - Nelle Sitemap ‎(0)‎ - Non raggiungibile ‎(0)‎ - Non seguito ‎(0)‎ - Non trovato ‎(236)‎ - Soggetto a restrizioni da robots.txt ‎(7)‎ - Time out ‎(0)‎

Non mi dà errore nella sitemap anche se mi ci fai pensare ho provato ad installare 3 plugin per wordpress prima di trovare quello adatto:

XML Sitemaps di Denis de Bernardy

Ho provato a controllare la sitemap ,ma non ci sono traccia delle url incriminate

Può essere altro?