• Moderatore

    Ho dato uno sguardo e le prime osservazioni sono queste:

    • le url che evidenzi sono relative a componenti (xmap e zoo);
    • penso che in passato siano state indicizzate molte url; la configurazione delle url potrebbe essere variata nel tempo, ad esempio perché in un secondo momento è stato installato un componente seo/sef.

    Attualmente Google fornisce risultati di url non sef che però vengono redirezionate verso url sef.
    Non so se siano indicizzate url inutili, puoi controllare con Visual SEO Studio (verifica anche le risposte 404, 301, ... ).

    Lo screenshot che mi hai mostrato è quello dei meta duplicati; devi capire se hai contenuti duplicati oppure se si tratta di altro, cosa che puoi fare sempre controllando le url con visual seo studio (ti mostra anche i tag, importante perché dovrai verificare se ci sono i rel canonical). Ovviamente puoi partire dalle url suggerite in Strumenti per i Webmaster.

    Infine ci potrebbero essere dei problemi con i componenti a causa del routing, che tradotto vuol dire che i componenti di Joomla creano url che tu non vorresti. A volte questi NON sono problemi, basta un rel canonical.

    Facci sapere come va, se hai bisogno di una mano posta qui. :wink3:
    Francesco


  • User

    Proverò con visual seo, comunque oltre che nel GWT gli url sono presenti nelle ricerca ho appena controllato con l'operatore site e non sono pochi:x. Entrambe le sitemap (html e xml) non presentano link non sef e comunque il sito ha più di un anno ed il problema si è presentato solo ora non so cosa controllare. Grazie per l'aiuto!

    Aggiornamento:

    Ho fatto una prova con "Visualizza come Google" ed il risultato è "pagina reindirizzata" poi sono andato nel database ed ho trovato quei link nella tabella finder e mi sono ricordato di aver abilitato le statistiche di ricerca (non so se centra qualcosa) ora ho svuotato tutte le tabelle finder e disabilitato le statistiche chissà se ho risolto anche se orma gli url sono stati indicizzati!


  • User

    Ho trovato la causa ma non ho capito il perchè... Praticamente creando dei menù secondari scegliendo il componente e non la funzione di aceses url si crea questo pasticcio. Ora ho modificato tutti i menu un questione spero torni tutto alla normalità


  • Moderatore

    Ciao,
    rispondo per punti così è più pratico. :wink3:

    Menu di Joomla e nuove url
    Certo, è possibile che insieme ai menu si siano create url e anche contenuti duplicati. Non è automatico però che queste nuove url vengano redirezionate. Più facile che a redirezionarle sia un componente seo/sef (a causa di impostazioni).

    Finder e statistiche di ricerca
    In Joomla 2.5 c'è un content plugin che viene indicato con Content - Motore di ricerca (tipo: content; elemento: finder): attivarlo significa abilitare l'indicizzazione con il motore di ricerca. Questo plugin va disattivato. Non va confuso con l'altro plugin Motore di ricerca - Contenuti che abilita l'indicizzazione degli articoli (tipo: finder; elemento: content).

    Scansione del sito web
    Con Visual SEO Studio o software analogo puoi individuare tutte le url del dominio e verificare come rispondono (200 se è tutto ok, 404 se la pagina non si trova, 301 se c'è un redirect permanete, ... e via così). Questo ti permette di trovare eventuali altre "url da correggere".

    Sitemap
    Non serve che una url sia inclusa nella sitemap perché venga indicizzata.

    Contenuti duplicati a causa di url non sef
    Dopo la scansione saprai se ci sono url non sef che presentano contenuti identici o molto simili a quelli di altre url sef: in quest'ultimo caso dovrai valutare se inserire un rel=canonical verso la corrispondente url sef. In alcuni casi però potrebbe già averci pensato AceSef. Comunque tu controlla che lo faccia e annota le url dove il rel canonical non viene inserito o viene inserito male (cioè non verso la corrispondente url sef), poi ti porrai il problema di risolvere quei singoli casi (puoi postare sempre qui sul forum).


  • User

    Buongiorno FDA e ancora grazie per l'interessamento,

    **Menu di Joomla e nuove url
    Non sono sicuro che la colpo fosse dei menu, anche se qualche altro problena con ZOO me lo crea, comunque li ho modificati per sicurezza ora uso acesef per creare i menu

    **Finder e statistiche di ricerca
    **Il plugin non era attivato ed ora ho disattivato anche le statistiche di ricerca

    **Scansione del sito web
    ****Ho scansionato il sito con Visual SEO e delle url in questione non c'è tracciaA questo punto non so se il problema era nei menù o in finder, di certo c'è solo che le url erano presenti nel database ma non nel sito e non so come Google ci sia arrivato. Usando l'operatore site google visualizza queste url ma se provo a cercare il titolo della pagina visualizza l'url sef :x, le url non sef sono presenti anche nei link interni del GWT... Le url in questione potrebbero essere state prenseti in precedenza ma molto tempo fa (+ di 90 giorni) possibile che solo ora GWT le presenti?

    P.S.
    In tutto questo nel file robots c'è sempre stata l'istruzione Disallow: /*?
    Stato attuale: menu corretti, statistiche ricerca disattivate, tabelle finder svuotate spero si risolvi e che comunque non sia un problema agli occhi di google


  • Moderatore

    Ciao ZanchettaSol,
    grazie a te perché condividi la tua esperienza. :smile5:

    Robots.txt
    Non devi suggerire ai motori di ricerca di non indicizzare le tue pagine (perdona le due negazioni).
    Questo forse interessa: http://www.giorgiotave.it/forum/indicizzazione/221775-ottimizzare-il-file-robots-txt-per-wordpress-joomla-drupal-co.html

    Indicizzazione, url e GWT
    Quando Google inserisce nell'indice le url, queste ultime ci restano per un po' anche se le elimini dal sito, perché l'aggiornamento non è immediato. La ricerca che fai con "site:..." e altri operatori può quindi fornirti delle url che ormai non esistono e/o che sono cambiate (sperando che, dove necessario, le vecchie siano state reindirizzate verso le nuove, altrimenti trovi errori 404 e rischi di perdere traffico).

    L'analisi che fai confrontando la scansione con il seo spider (Visual seo), GWT e l'indice di Google, senza dimenticare l'analisi on site del tuo Joomla, ti serve a stabilire se il problema di quelle url non-friendly è legato a una vecchia configurazione oppure se esistono ancora problemi.

    Usando l'operatore site google visualizza queste url ma se provo a cercare il titolo della pagina visualizza l'url sef
    Ottima notizia ed è una delle prime cose che ho commentato: evidentemente l'installazione del componente seo/sef (o altro intervento sulla configurazione del sito) ha trasformato quelle url in friendly ed ha creato i redirect 301 dalle vecchie url non-sef alle nuove sef. Chiaro che l'indice di Google non è stato ancora aggiornato. Ripeto che bisogna essere certi che TUTTE le url non-friendly e indesiderate siano state risolte e non soltanto alcune (perché sappiamo che alcune sono redirezionate e quindi già ok).

    Zoo e altre estensioni con acesef
    Devi verificare che il componente seo/sef che usi (acesef) sia in grado di gestire le url di tutti i componenti installati (ad esmepio zoo). In pratica, acesef deve rendere friendly tutte le url, e le url dipendono dal routing del componente (per questo motivo gli sviluppatori di componenti seo/sef si sbracciano a comunicare che la loro estensione seo è compatibile con molte altre estensioni).

    Link interni
    Io farei un'analisi anche sui link interni, puoi farla con un altro free tool come Screaming Frog. I link alle pagine dei tool li trovi qui: http://seoblog.giorgiotave.it/seo/tools

    Dopo avere inserito la home page del tuo sito (se è nella root), guarda i link dalla cartella "internal". Se sono tanti e non sai come gestirli prova ad esportarli in un foglio di calcolo (va bene anche quello gratuito di Google) e aiutati con i filtri e l'ordinamento per eliminare le url che non ti interessano. Le url che cerchi sono quelle non-sef, ad esempio che hai linkato alle vecchie voci di menu in cui compaiono i vari component. Poi le elimini una alla volta e, dopo avere fatto questo lavoro, ripeti la scansione. Purtoppo è un lavoro di affinamento.

    Aggiornaci e se incontri difficoltà posta sul forum. :wink3:
    Francesco


  • User

    Eccomi, allora con qualsiasi tool o software utilizi per scansionare il sito non vengono rilevate url non sef e questo è un bene. Anche se google mostra le url dopo stiamo parlando di parecchio tempo. Acesef ha un plugin dedicato a zoo e sembre aver funzionato sempre bene. La tabelle finder_links si è ripopolata di url non sef con il parametro "task=item" lo stesso che trovo nelle url di Google. A questo punto non so neanche se è un problema e purtroppo su queste url non posso neanche intervenire se non manualmente una ad una 😮

    Ho appena notato che l'anteprima della pagina passando sopra il link nella pagina "link interni" di GWT mi visualizza una vecchia versione del sito e se non ricordo male è di qualche mese fa :bho: forse mi agito per niente sono solo vecchie url e google sta parecchio indietro con il mio sito ma gari sono state indicizzate proprio mentre ripulivo la cache o cambiavo qualche impostazione. Se questo è il reale motivo mi spiego anche gli errori 404 di pagine rimosse ho perche ho ancora in quasi tutti i title il nome del sito quando invece l'ho tolto da tempo praticamente sto controllando dati vecchi su con i dati del presente :yuppi:

    A questo punto attendo altri aggiornamenti da google.

    Grazie per i consigli spero sia utili a qualcuno questo post!


  • Moderatore

    Ricontrolla il robots.txt, credo ci siano troppi disallow, ad esempio sulla cartella images. 🙂


  • User

    Buongiorno, grazie perche mi hai ricordato di dover modificare quel file avendo da poco modificato la path per le url, ora uso le originali e non più quelle in cache. Prima c'era il permoso di scansionare solo le immagini nella cache però mi sono accorto che pulendola il nome dei file cambiava e allora adesso uso le originali e di conseguanza, come hai detto giustamente tu, cambio il file robots. L'ho ripulito di tutti i disallow ai singoli url visto che c'ero. Secondo te apparte l'indicizzazione delle imagini che problema poteva dare?


  • Moderatore

    Buongiorno a te,
    secondo me l'impostazione del robots.txt dipende da caso a caso, soltanto chi gestisce il sito può sapere se in quelle folder ci siano url da indicizzare.
    In linea di massima noto alcune cose:

    1. L'istruzione seguente suggerisce di non indicizzare url con query string:
    Disallow: /*?
    

    Se l'hai scelta per impedire l'indicizzazione di url non-sef va bene, ma considera che se hai url con query string da indicizzare sei fritto. :bigsmile: In quest'ulimo caso (di query string, non di frittura) puoi aggiungere dopo il *disallow *di sopra delle eccezioni con allow.

    1. La riga
    Disallow: /installation/
    

    va eliminata insieme a tutta la cartella installation.

    1. Farei attenzione alle immagini e agli altri media (se vuoi indicizzarli), quindi anche a questa:
    Disallow: /media/
    
    1. Il disallow su administrator va bene, quelli su components, includes, libraries, plugins, templates non mi hanno dato problemi, ma questa non credo sia una regola generale e mi sento di consigliarti di testare per verificare se ti bloccano l'indicizzazione di qualcosa.

    Pattern matching nel robots.txt
    Alcuni motori, per la verità non so se tutti ma Google di certo, interpretano * e $:

    • il primo (*) si legge come "qualunque sequenza di caratteri";
    • il secondo ($) come "fine della stringa"

    Per spiegare l'uso di * e $ considero l'istruzione vista sopra:

    Disallow: /*?
    

    Questa esclude tutte le url con query string, cioè quelle nella forma:

    http://www.dominio.com/qualcosa?parametro1=valore1&parametro2=valore2&...
    

    Se avessi voluto escludere soltanto le url che terminano con ? avrei dovuto scrivere:

    Disallow /*?$
    

    Se invece avessi voluto escludere tutte quelle con query string ma non quelle che terminano con ? avrei scritto:

    
    Disallow: /*?
    Allow: /*?$
    
    

    Attenzione: * e $ non sono gli operatori delle regex, le espressioni regolari nel robots.txt non funzionano.


  • User

    Si si ho scelto ogni istruzione appositamente

    1)Si per evitare l'idicizzazione delle url non sef come la ricerca, chronofor etc, anche se questo non ha evitato di indicizzare gli errori di cui parlavamo
    2)Non ci avevo fatto caso comunque la cartella è stata eliminata dopo l'installazione
    3)Non ho immagini da indicizzare ed anche se qui ci sono le cartelle widgetkit e zoo non crea problema
    4)Non ho riscontrato problemi neanche io per ora. Si i pattern li ho imparati proprio da google 😉

    Comunque ora l'ho ripulita :fumato:


  • User

    Ottime notizie con l'operatore site non sono più presenti le url non sef ma quelle corrette. Dopo varie pulizie a Joomla ho reinviato l'homepage a Google tramite GWT ora sembra tutto ok apparte il fatto che nel tittolo compare ancora il il nome del sito...

    Grazie ancora alla prossima


  • Moderatore

    Perfetto! :wink3: