• User

    Url duplicati - non ce la faccio più

    Ciao a tutti,
    spero di avere aiuto su un problema che ormai sta diventando insostenibile:
    Avevo un sito ben posizionato, fatto in html alla vecchia maniera, che mi generava un sacco di visite.
    Dopo il passaggio a Joomla 2.5 posizionamento perso, tramite gli strumenti per i webmaster scopro che Google indicizza invece di 34 pagine diverse centinaia.
    Mi documento e scopro che joomla genera pagine a piacimento:
    se ho un articolo con id 48 verranno generati infiniti url inserendo il numero 48, es:
    www nomesito it/ pagina
    www nomesito it / 48 ciccio
    www nomesito it / blog / 48vatteneapesca

    Ho provato di tutto: robots, canonical, rimozione url ma google continua a pescare pagine e il sito continua inesorabilmente a scendere.
    Ho provato anche ad installare joomla 3.3 ma problema identico.

    Sapete se esiste una soluzione definitiva?
    Sono pronto a passare immediatamente a Wordpress se mi dite che questo problema non esiste.

    Sito: altraweb it

    Andrea


  • Moderatore

    Ciao altraimmagine,
    non esiste un CMS che non genera duplicati, devi gestirli. 🙂

    Sto uscendo se mai torno qui più tardi :), intanto dimmi cosa hai fatto sul robots, installa un componente per il redirct ReDJ e verifica le voci di menù perché da quello che scrivi mi pare che il problema sia li, se hai più voci di menù che rimandano allo stesso contenuto, generi duplicati.

    Maurizio ZioPal


  • User

    .


  • User

    Non si tratta di un articolo inserito in più categorie ma un bug joomla.
    Con riscrivi url sef attivato:
    Se scrivo un url immaginario come nomesito / 44 . html
    mi apre l'articolo con id 44
    idem senza url sef:
    Se scrivo nomesito / index php / 44pippo . html
    mi apre sempre l'articolo con id 44


  • Moderatore

    Ciao altraimmagine.
    Esattamente come ha scritto Maurizio ZioPal, hai configurato male il sito.

    Hai certamente un problema di menu, ma non solo questo. Non posso dirti esattamente quali siano le operazioni da fare perché sicuramente devi intervenire in più punti. Controlla:

    • configurazione base dal backend
    • estensioni seo/sef
    • htaccess (in particolare le istruzioni per la riscrittura degli url)
    • menu
    • categorizzazione e articoli

    Qualche nota:

    1. I primo errore evidentissimo è questo: http: //altraweb .it/ index.php/altraweb/l-agenzia
      Non deve esserci quel index.php nell'url e invece c'è in quasi tutte le voci di menu.

    2. Non ho ben capito poi cosa siano quelle voci "tags" in basso che puntano allo stesso contenuto, mi sfugge tra l'altro l'utilità lato marketing e lato SEO.

    3. Hai url non friendly come questa: http: //altraweb .it/index.php/2011-05-02-12-33-35

    Francesco


  • Moderatore

    Ciao altraimmagine perdonami avevo detto che sarei ripassato anche se tecnicamente sono arrivato il giorno dopo. 🙂

    Logicamente non è possibile capire che problema c'è buttando un occhio al sito. Tu vieni da una migrazione, che è una delle cose più a rischio SEO in assoluto, potresti aver perso posizioni semplicemente perché hai gestito male questo fase.
    Quanti sono questi duplicati? come li hai misurati?

    Mi documento e scopro che joomla genera pagine a piacimento
    Dove ti sei documentato? Dove hai letto questa cosa?

    Sostanzialmente io credo che tu abbia gestito male i menu, avevi una voce di menu blog? Che fine a fatto? è stata comunque indicizzata.

    Ma a guardare bene non credo che queste le abbia fatte Joomla:
    www. altraweb.it/siti-commercio-elettronico-taranto/siti-commercio-elettronico-taranto.html
    www. altraweb.it/siti-commercio-elettronico-brindisi/siti-commercio-elettronico-brindisi.html
    www. altraweb.it/siti-commercio-elettronico-bari/siti-commercio-elettronico-bari.html

    www. altraweb.it/creazione-siti-internet-lecce/creazione-siti-internet-lecce.html
    www. altraweb.it/creazione-siti-internet-bari/creazione-siti-internet-bari.html
    www. altraweb.it/creazione-siti-internet-taranto/creazione-siti-internet-taranto.html

    Google è in grado di riconosce i duplicati creati dal CMS e quelli creati da te, per alcuni si rischia la penalizzazione per altri no. 😉

    Maurizio ZioPal


  • User

    Probabilmente mi sono spiegato male:
    per FDA:
    so bene come gestire l'url, quando hai controllato stavo facendo prove con l'htaccess e disabilitando "Riscrivi URL SEF" e "Suffisso URL"
    Allora...

    Ho una pagina che descrive la mia agenzia:
    altraweb .it/altraweb/l-agenzia .html
    Questo articolo su joomla ha id 39

    Se io sul browser provo a scrivere url "immaginari" con il numero 39 come questi:
    altraweb .it /39pippo .html
    altraweb .it /39ciaoatutti .html
    O inventare directory
    altraweb .it /pippo/39 .html
    Joomla mi visualizza sempre la pagina dell'agenzia.

    Questo non accade nel mio sito ma su tutti i siti joomla!!!

    Ora Google sta indicizzando centinaia di pagine inesistenti, che naturalmente risultano duplicati!!!
    Lo stesso problema ce l'ha joomla 3.3


  • Moderatore

    Ciao altraimmagine,
    ottima osservazione. Devo controllare. Mi confermi che non hai plugin seo/sef?

    L'esperto di SEO per Joomla! è Maurizio ZioPal, vediamo se ci da qualche indicazione sul dove indagare e come risolvere.

    Annota questa discussione e se hai nuove informazioni aggiungile. :wink3:

    Francesco


  • User

    Nessun plugin seo.
    Sto pensando seriamente di tradire joomla per wordpress
    Per fortuna il problema non esiste su virtuemart, ho un ecommerce posizionato benissimo su centinaia di articoli, se google avesse comiciato ad indicizzare in maniera pazzoide anche quello sarebbero stati problemi seri 🙂


  • Moderatore

    Aspetta, però.
    Il problema non è Joomla ma sempre la configurazione.
    Devo prima capire quando e perché quelle url non portano a 404 e se ciò sia corretto, altrimenti rischio di scrivere sciocchezze.
    Una volta analizzata la situazione si corregge la configurazione, ad esempio con rel=canonical o redirect 301 dove servono.

    A proposito, in questo caso potrebbe tornare utile: avete una lista di plugin Joomla per il rel=canonical da testare? Grazie! :smile5:

    Francesco


  • User

    Ciao FDA, hai un'installazione Joomla su cui verificare?
    Prova, lo stesso problema lo hai con qualsiasi sito joomla.
    Anche su installazioni base, senza url sef, indipendentemente dall'host, dall'htaccess, con qualsiasi versione (1.5, 2.5, 3.3)
    E' assurdo che joomla abbia un problema così serio e che la comunità non sia intervenuta.


  • Moderatore

    Proviamo su un'installazione vergine di Joomla 2.5 e poi 3.3, ma ripeto che la questione è la configurazione ottima.
    Non fasciamoci la testa prima di cadere.
    Anche WordPress ha problemi, la differenza è che alcuni vengono risolti da Yoast.

    "Indipendentemente dal htaccess e da tutto il resto" è un'affermazione corretta fino a quando non interveniamo "nell'htaccess e in tutto il resto". :wink3:


  • User

    Con "Indipendentemente dal htaccess e da tutto il resto" intendo che ho provato anche eliminando il .htaccess e le impostazioni seo joomla con installazione vergine su server pulito.
    In questo caso l'unica differenza è che l'url pazzo si genera dopo index.php
    altraweb .it / index.php/39scriviquellochevuoi .html


  • Moderatore

    @altraimmagine said:

    Probabilmente mi sono spiegato male:
    per FDA:
    so bene come gestire l'url, quando hai controllato stavo facendo prove con l'htaccess e disabilitando "Riscrivi URL SEF" e "Suffisso URL"
    Allora...

    Ho una pagina che descrive la mia agenzia:
    altraweb .it/altraweb/l-agenzia .html
    Questo articolo su joomla ha id 39

    Se io sul browser provo a scrivere url "immaginari" con il numero 39 come questi:
    altraweb .it /39pippo .html
    altraweb .it /39ciaoatutti .html
    O inventare directory
    altraweb .it /pippo/39 .html
    Joomla mi visualizza sempre la pagina dell'agenzia.

    Questo non accade nel mio sito ma su tutti i siti joomla!!!

    Ora Google sta indicizzando centinaia di pagine inesistenti, che naturalmente risultano duplicati!!!
    Lo stesso problema ce l'ha joomla 3.3

    Questo è un bug vero e riscontrato in altre occasioni, personalmente non ho mai dovuto combattere con questo problema ma è anche vero che io normalmente installo componenti SEF (e probabilmente è la soluzione).

    Però se non c'è qualcuno che ti sta attaccando di proposito non vedo come sia possibile che tu abbia diverse centinaia di duplicati, per la verifica che ho fatto io hai 150 pagine indicizzate su Google e tra queste non visto pagine che mi facciano pensare al problema che sottolinei (se pure effettivamente esiste). Per quella che è la mia esperienza google è in grado di scindere i duplicati generati dal CMS e a meno che non siano davvero centinaia non ti penalizza, sicuramente non in maniera seria.

    è giusto tu voglia risolvere il bug ma non pensare che questa sia la vera/unica causa del declassamento che dici di aver subito.

    Maurizio ZioPal


  • User

    Il problema è probabilmente dovuto al fatto che ho lasciato semivisibile il sito durante un mese di prove e Google ci ha dato dentro con l'indicizzazione.
    Quale componente SEF mi consigli?


  • Moderatore

    io normalmente uso artio JoomSEF che ha anche una versione gratuita, alrimenti sh404SEF

    Maurizio ZioPal


  • Moderatore

    Il comportamento è dovuto al meccanismo di routing di Joomla.

    Prendi queste tre url riferite allo stesso articolo con id=39:

    1. http:// altraweb.it/altraweb/l-agenzia.html
    2. http:// altraweb.it/altraweb/39
    3. http:// altraweb.it/39

    La 1) è generata da un menu ed ha in comune con la 2) il segmento /altraweb/ , cosa che non ha la 3).

    Il segmento /altraweb/ è il primo dopo la base http:// altraweb.it ed è relativo proprio al menu. Il fatto che 1) e 2) condividano questo segmento fa sì che abbiano praticamente la stessa vista.
    Le pagine 1) e 2) differiscono infatti per pochissimi dettagli e tutti modificabili (si tratta delle article options e metadata options, definite una volta da voce di menu e l'altra dall'articolo).

    La pagina 3) è diversa perché non condivide con le altre due il segmento relativo al menu, che è quello della ... homepage! E infatti dalla home page prende gli altri elementi. Se guardi nel codice ti accorgi anche che alcuni elementi dell'head di 2) e 3) sono uguali, questo perché le options di cui sopra sono in entrambi i casi quelle dell'articolo e non quelle della voce di menu, che "serve" solo la 1).

    Ogni componente deve fare i conti con il routing e infatti ha il suo bel file router.php piazzato nella propria root. La notizia buona è che c'è sempre la possibilità di modificare il meccanismo di routing per i componenti ed è di fatto quello che fanno i produttori di estensioni. Quando malediciamo un componente che crea url brutte in verità ce la prendiamo con il suo routing, o meglio, con il fatto che un nostro eventuale componente SEO/SEF non sia in grado di "aggiustare" le url.

    E vengo alle 3 url prodotte inserendo un numero a caso. Anzi, voglio esagerare e ne aggiungo altre due:
    4) http:// altraweb.it/39blabla
    5) http:// altraweb.it/tizio/39caio

    1. e 5) si comportano come la 3), in pratica è "la stessa pagina".

    Joomla non ragiona male, non è impazzito. Quando gli diamo un url cerca di capire a quale contenuto si riferisca. Non tira a indovinare ma segue la logica di routing secondo un meccanismo che prevede la connessione al db per verificare se il contenuto è presente.

    Nel caso delle nostre 5 url la prima cosa che verifica è la presenza del menu item, che si trova nel primo segmento. Dopo passa al resto, che significa categorie e articoli. Quando incontra un numero all'inizio di un segmento, Joomla si chiede se non sia l'id di un articolo: così va a verificare se l'articolo si trova in db e quale sia la sua categoria.

    Quando scrivo "all'inizio di un segmento" intendo ad esempio dire che, se in:
    http:// altraweb.it/tizio/39caio
    inverti "39" con "caio":
    http:// altraweb.it/tizio/caio39
    allora ottieni un 404, perché all'inizio del segmento Joomla trova la stringa "caio" e non un numero da cercare nel campo id degli articoli.

    Premesso che nulla vieta come detto di installare componenti SEO/SEF che modifichino il meccanismo di routing, secondo me Joomla non sbaglia affatto.
    Se il mio articolo ha url:
    http:// altraweb.it/altraweb/39-l-agenzia.html
    ci sta che se un utente digiti:
    http:// altraweb.it/altraweb/39
    il sito web risponda con l'articolo con id=39, che tra tutte le cose che l'utente potrebbe avere cercato è la più probabile.

    Dalla documentazione ufficiale di Joomla:
    "How can I get rid of the numbers in the SEF URLs?

    The numbers in the SEF URL are needed by Joomla!'s router to know how to direct site traffic. Once the router logic stabilizes, simple third party system plugins can be developed to augment the router capabilities by allowing more choice. At that time, numbers will likely be removed from the URL."

    A mio parere Google riconosce queste pagine e non le indicizza, prova è che non sono indicizzate non soltanto per *altraweb *ma neppure per altri siti (ma possono essere indicizzate). Che poi si possa migliorare la situazione non v'è dubbio, sta ai SEO stabilire se con redirect 301 oppure con rel=canonical correttamente implementati verso gli articoli originari.

    Ci possono essere delle eccezioni (es. stessi articoli con più viste, eventualmente accessibili solo per utenti con privilegi e/o non indicizzate per scelta) e poi la vista è separata dal dato.

    A questo punto **chiedo **agli utenti del ForumGT: come andrebbero trattate queste url per soddisfare le esigenze dei vostri siti? Inserireste redirect 301 all'articolo (quello del menu?), il rel=canonical (a quale url?) o fareste altro?

    Francesco
    (Salvo sviste da paura, che è notte fonda. :fumato: )


  • Moderatore

    Grande Francesco,
    che disamina accurata personalmente credo nel redirect 301, definitivo e quindi, il più corretto in caso di duplicati. Credo anche che forse in questi casi sia più corretto il rel canonical perché più flessibile e perché a differenza del 301 mi permette di mostrare anche la pagina "duplicata" qualora le differenze fossero minime e fosse comunqeu interessante mostrarle, tipo un contenuto mostrato in un contesto diverso o il classico caso dell'ordinamento di un elenco.

    Comunque ancora un bravo a Francesco, vediamo se smuoviamo qualcuno a commentare. 😉

    Maurizio ZioPal


  • Moderatore

    Grazie Maurizio e grazie a *altraimmagine *che mi ha "costretto" (si fa per dire) a documentarmi. :smile5:

    @Maurizio Zio Pal: dicevi meglio il rel=canonical, ma come faccio a determinare la pagina a cui puntare? Potremmo dire: quella del menu, ok ... e se nel menu ci sono più voci che si rifanno ad esempio ad uno stesso id articolo? La soluzione potrebbe essere scandagliare prima il menu per vedere se è presente una voce per quell'articolo? Credi che un plugin dovrebbe fare "tutto da solo" oppure consentire all'utente di fare scelte in base all'url dal pannello di back end?

    Non ho ancora capito esattamente come fare per "selezionare" l'url canonico, vorrei anche vedere almeno un plugin open source che lo implementa bene. *Metagenerator *se non sbaglio risolve soltanto il com_content (ma è già tanto).

    @altraimagine: la index.php negli url usciva non per errata configurazione ma perché non era attivato il mod_rewrite di Apache, poi devi averlo riattivato perché ieri sul tardi era già tutto a posto.

    Francesco


  • Moderatore

    @FDA si direi quella del menu.

    Per chi trovasse la discussione interessante ci sono sviluppi anche su google plus.
    *
    Maurizio ZioPal*