• Moderatore

    Url maiuscole e minuscole = contenuti doppi

    Ragazzi zio google stà diventando proprio severo ultimamente. 😉

    Adesso frà le tante cose che si è messo a notare c'è anche il fatto che nel mio sito vede per ogni url anche la sua versione minuscola. Faccio un esempio.

    Prendiamo questo url:
    miosito.it/categoria/Nome_Della_Pagina.html

    Google ha iniziato a vedere per ogni url una cosa come questa:
    miosito.it/categoria/Nome_Della_Pagina.html
    miosito.it/categoria/nome_della_pagina.html

    Ovviamente vengono viste come due pagine identiche e quindi copiate. Direte voi, evita di usare l'url stiloso con le maiuscole. Ma purtroppo questo risolverebbe le url future ma non quelle passate, inoltre il titolo và nell'url ed un titolo completamente minuscolo non è bello.

    Vorrei anche evitare, se possibile, di bloccare ogni singola pagina con l'url minuscola tramite il robots.txt

    L'unica cosa che penso (spero) mi possa aiutare è il file .htaccess redirezionando le url minuscole a quelle maiuscole oppure bloccando quelle minuscole.

    Datemi una mano altrimenti da qui a un mese mi trovo migliaia di contenuti duplicati.


  • Super User

    io uso una funzione che, data in input una stringa tipo "Nome della Pagina" mi da in output "nome-della-pagina".

    mettiamo che ho nome-della-Pagina-123.html
    io leggo dal database (chiave primaria 123) il titolo vero e gli applico la funzione

    a questo punto faccio un confronto tra l'output della funzione e il titolo letto da $_GET. sono diversi? 301 😉


  • Moderatore

    Un ragionamento che non fà una piega...però è più facile a dirsi che a farsi. 😉


  • Super User

    bhe modificare uno script già fatto è sempre una noia

    ma quando progetti un sito da zero, prevedere questo controllo non porta via niente 😄


  • ModSenior

    Molto interessante...
    La domanda è ricorrente. Un articolo del 2007 questo mostra proprio la cosa che dici tu e suggerisce di lavorare a livello di server e rewriting per evitare il problema (come ti è già stato suggerito).

    E' anche interessante che sia stata postata di recente la stessa domanda anche nei gruppi di Google qui

    Oltre ai test empirici penso che ci possano aiutare anche questi 2 a far luce

    • il DUST che avevo segnalato qualche tempo fa parla ancora di canonicalizzazione dell'URL
    • il brevetto rivisto sulle ancore e sui link del dicembre 2007 dove leggo però che google genera un'impronta dell'url (= un numero a 64bit) a partire dal testo dalla URL normalizzata e il brevetto continua riportando > per esempio convertendo i nomi degli host in minuscolo.