- Home
- Categorie
- Digital Marketing
- Google Search Console e Altri Strumenti
- Problema contenuti duplicati in drupal
-
Problema contenuti duplicati in drupal
Salve, dando un'occhiata agli strumenti per webmaster di google (nella sezione diagnostica), ho notato che il mio sito basato su drupal presenta molti tag title e meta descrizioni duplicate.
Per esempio:
la pagina con titolo:
Tipi di Uovo - Embriologia - appunti_di_scienze - pagina 1 - cliccascienze.it
è raggiungibile da due url differenti
cliccascienze.it/appunti-di-scienze/tipi-di-uovo.html (clean url)
cliccascienze.it/node/74 (url originale)Questo accade perchè drupal quando crea i clean url, lascia intatti ed accessibili gli url originali.
Ho letto un pò quà e la e ho esaminato il mio file robot che contiene la segunte stringa di codice:
User-agent: *
Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /sites/
Disallow: /themes/
Disallow: /node$Visto che così com'è il boot indicizza ugualmente entrambi gli url ho pensato di modificare l'ultima riga togliendo il simbolo $ e sostituendolo con /.
in pratica:
User-agent: *
Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /sites/
Disallow: /themes/
Disallow: /node/Così facendo (almeno in teoria) dovrei evitare che google indicizzi tutte e due le url.
Secondo voi ho fatto bene? Accetto pareri consigli e soluzioni alternative. Nei prossimi giorni poi vi farò sapere come reagisce webmaster tools.
Grazie in anticipo e buona Pasqua a tutti!
-
Ciao O_svaldo,
esatto, come hai modificato è giusto per il tuo caso specifico.Ciao
Enea
-
Grazie per la risposta.
Ci sono degli aggiornamenti...
questa mattina visitando strumenti per webmaster ho trovato il seguente avviso:Robots.txt sta bloccando pagine importanti?
Cliccandoci sopra vengo rimandato alla pagina di analisi del file robots.txt
Guardando poi nella diagnostica ho visto che tutti gli errori di title e meta duplicati sono rimasti. Come faccio ad eliminare questo errore?
Tra l'altro la cosa è particolarmente fastidiosa perchè da qualche tempo a questa parte google mi indicizza le url sporche... e non i clean url...
Per esempio se ricerco Poliembrinia la urul trovata da google è:
e non cliccascienze.it/appunti-di-scienze/poliembrionia.html
Help me...
-
Se guardi sotto la voce "Diagnostica" ci dovrebbe essere una frase con link "Alcune pagine importanti.." ecc, se ci passi sopra dovrebbe farti vedere di quale url si tratta, oppure se ci clicchi ti rimanda direttamenta nella pagina incriminata.
Devi aspettare qualche giorno prima che il GWT si aggiorni.
Una domanda: ma perché se imposti i friendly url ti lascia anche le vecchie url?
In teoria non dovrebbe fare così, sicuramente ci dovrebbe essere una soluzione, tipo l'uso del file .htaccess per esempio con il redirect dalla vecchia url alla nuova.Io non conosco drupal quindi vado per presupposizione.
Eventualmente potresti aggiungere il rel="canonocal" alle pagine con l'url vecchio.
Ciao
Enea
-
In effetti c'è un modulo apposito che si occupa di fare questo redirect, infatti quando si visitano i vecchi url automaticamente si viene reindirizzati ai nuovi...
Il punto è che però google se ne frega e indicizza ancora i vecchi url
per quanto riguarda la pagina incriminata l'ho trovata ed ho fatto questo ulteriore tentativo:
ho inserito Allow: /node/XXX (xxx è la pagina specifica) all'interno del file robots.txt staremo a vedere cosa farà google nei prossimi giorni.
-
@O_svaldo said:
In effetti c'è un modulo apposito che si occupa di fare questo redirect, infatti quando si visitano i vecchi url automaticamente si viene reindirizzati ai nuovi...
Allora c'è qualcosa che non funziona correttamente, per questo specifico caso però io non posso aiutarti non conoscendo quel cms, ti consiglio di aprire una discussione nel forum drupal chiedere li.
@O_svaldo said:
ho inserito Allow: /node/XXX (xxx è la pagina specifica) all'interno del file robots.txt staremo a vedere cosa farà google nei prossimi giorni.
Se per quella pagina esiste anche la copia con la friendly url rischi di avere un doppione.
In teoria dovresti aspettare un po' di tempo prima di fare modifiche perchè il GWT non aggiorna in tempo reale ma dopo qualche giorno.
Ciao
Enea
-
Meta Tags , Global Redirect e Path Auto
Se stai usando questi moduli non dovresti avere alcun problema.
Nel tuo caso sconsiglio l'uso del robots.txt
-
Ciao Mirel Imbrea e benvenuto nel forumGT,
potresti spegare perché in questo caso sconsigli l'uso del robots.txt?Ciao
Enea
-
Ciao Enea grazie per il benvenuto...
La maggior parte degli utenti "DRUPAL" che hanno questo tipo di problema bloccano /node/** percorso
Il problema di Osvaldo sta nel modulo "Nodewords"
Se vado a creare un nodo con il titolo "imbrea mirel", se si utilizza l'auto percorso si ottiene: "site.com / imbrea-mirel", ma l'url canonica utilizza il percorso predefinito :
<link rel="canonical" href="/node/55" />Questo ha portato ad una indicizzazione errata dell'intero sito
-
Ciao, per caso sono capitato su questa vecchia pagina e come drupalista concordo con Mirel Imbrea.
In questi casi, con Drupal 7, i moduli da utilizzare sono Global Redirect, Meta Tags e Pathauto.
Il modulo Nodewords era per Drupal 6, sostituito da Meta Tags in Drupal 7.
Global Redirect viene utilizzato per diversi scopi al fine di evitare contenuti duplicati; personalmente lo uso per il deslash (/) e per i termini della Tassonomia.
Meta Tag, utilizzato da me per impostare diversi meta name, in questo caso per impostare il canonical e Pathauto per la generazione degli alias.
Saluto
Giovanni Di Giovanni