- Home
- Categorie
- La Community Connect.gt
- News Ufficiali da Connect.gt
- Robots.txt per evitare contenuti duplicati
-
Robots.txt per evitare contenuti duplicati
Un mio sito si è beccato la penalizzazione per contenuti duplicati, anche se questo è avvenuto in buona fede ed a mia insaputa, ossia per un bug del cms che uso.
Ma non è questo che mi interessa, dato che al 99% ho appurato la causa della penalizzazione.
Quello che voglio sapere è come uscirne e penso di aver trovato il sistema ma ho bisogno di un aiuto.
In pratica per ogni pagina google mi ha associato due o più url diverse derivate da un mod_rewrite (a suo tempo) non ottimizzato.
Un esempio:miosito.it/categoria/nome_pagina.htm miosito.it/index.php?=categoria/nome_pagina.htmOppure:
miosito/categoria/pagina1.htm miosito/categoria/pagina2.htm miosito/categoria/pagina3.htmQuesto ha generato una enorme quantità di contenuti duplicati identici.
-Sfruttando il robots.txt vorrei risolvere il tutto, secondo voi è una soluzione coerente?
Io pensavo di escludere le url non rewrittate così facendo:
User Agent: * Disallow: /index.php?=categoria/ Disallow: /categoria/-Così se non sbaglio google non indicizzerà mai più le url che iniziano con miosito.it/index.php?=categoria/ e anche quelle che iniziano con *miosito/categoria/ *giusto?
Avevo letto che google dava la possibilità di usare questa espressione Disallow: ?/ *per dirgli di escludere tutte le url che contengono il punto interrogativo (e che quindi non sono mod_rewrittate) ma dovrebbe essere una tecnologia proprietaria solo dello zio G e quindi non valida con altri mdr, giusto?
Ovviamente ho già fatto richiesta di esclusione per quelle url.
Grazie e scusate se ho sbagliato sezione, se il tema è già stato trattato ed ho scritto un poema.

-
scusa ma che CMS usi? Non è meglio trovare una soluzione dal CMS invece che dal robots.txt?
-
@PsYCHo said:
Sfruttando il robots.txt vorrei risolvere il tutto, secondo voi è una soluzione coerente?
Specie se il sito possiede molte pagine, il solo robots.txt può non dare buoni risultati.
A volte può essere persino dannoso, nel senso che non facilita la valutazione del sito al motore di ricerca.Quello che bisogna fare è presentare al motore una situazione che **inequivocabilmente ** mostra l'esistenza delle sole URL "riscritte".
Pertanto:
- Tutti i link sul sito devono puntare a URL "riscritte";
- Tutte le richieste di URL "vecchie" devono restituire ai client una redirezione lato server (status HTTP 301) verso la corrispondente URL "riscritta".
Nel caso in cui si adotti la sopra citata tecnica, il robots.txt non va usato per chiedere allo spider di non accedere alle URL vecchie.