• User

    problemissimo con contenuti duplicati

    Salve,
    Il mio sito ,fatto con prestashop, ha un problema di contenuti e pagine duplicate.
    Il sito prima non aveva gli url rescritti e google l'aveva indicizzato. Poi con una funzione del CSM prestashop ho riscritto tutti gli url tramite un file .htaccess generato in automatico.
    "Spettacolo!!! Tutti gli url rescritti con 1 click".
    "Banane!" risponderebbe un mio amico.
    Google ha indicizzato le pagine con gli url rescritti ma non ha eliminato i vecchi URL lasciandoli nella SERP. Quindi adesso google vede 2 pagine uguali sul mio sito, 1 col url rescritto e 1 non rescritto. Il bello è che se si schiaccia dalla SERP sul vecchio URL il mio CMS reindirizza su quella nuova.
    Io ho pensato a 3 soluzioni(che ovviamente non so come fare):

    1. dire a google che i miei vecchi indirizzi sono morti, sotterrati e hanno concimato la terra per far crescere i nuovi URL.
    2. Modificare il file .htaccess generato in automatico(che è complicatissimo che neanche la nasa ci riuscirebbe) e dire al CSM di non toccarlo piu'.
      3)disperarsi:x e piangere:crying: sperando in un miracolo.

    Qualcuno sa come applicare la soluzione 1?
    Qualcun' altro sa dove mettere le mani sul mio file .htaccess

    # ~~start~~ Do not remove this comment, Prestashop will keep automatically the code outside this comment when .htaccess will be generated again# .htaccess automaticaly generated by PrestaShop e-commerce open-source solution
    
    
    
    
    <IfModule mod_rewrite.c>
    RewriteEngine on
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule . - [E=REWRITEBASE:/shop/]
    RewriteRule ^api/?(.*)$ %{ENV:REWRITEBASE}webservice/dispatcher.php?url=$1 [QSA,L]
    
    
    # Images
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$1$2$3.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$1$2$3$4.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$3/$1$2$3$4$5.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$3/$4/$1$2$3$4$5$6.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])([0-9])([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$3/$4/$5/$1$2$3$4$5$6$7.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])([0-9])([0-9])([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$3/$4/$5/$6/$1$2$3$4$5$6$7$8.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])([0-9])([0-9])([0-9])([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$3/$4/$5/$6/$7/$1$2$3$4$5$6$7$8$9.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^([0-9])([0-9])([0-9])([0-9])([0-9])([0-9])([0-9])([0-9])(\-[_a-zA-Z0-9-]*)?(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/p/$1/$2/$3/$4/$5/$6/$7/$8/$1$2$3$4$5$6$7$8$9$10.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^c/([0-9]+)(\-[\.*_a-zA-Z0-9-]*)(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/c/$1$2$3.jpg 
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^c/([a-zA-Z-]+)(-[0-9]+)?/.+\.jpg$ %{ENV:REWRITEBASE}img/c/$1$2.jpg 
    
    
    # Dispatcher
    RewriteCond %{REQUEST_FILENAME} -s 
    RewriteCond %{REQUEST_FILENAME} -l 
    RewriteCond %{REQUEST_FILENAME} -d
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^.*$ - [NC,L]
    RewriteCond %{HTTP_HOST} ^cuccioliduomo,it$
    RewriteRule ^.*$ %{ENV:REWRITEBASE}index.php [NC,L]
    </IfModule>
    
    
    #If rewrite mod isn't enabled
    ErrorDocument 404 /shop/index.php?controller=404
    
    
    # ~~end~~ Do not remove this comment, Prestashop will keep automatically the code outside this comment when .htaccess will be generated again
    

    Vi ringrazio tutti
    Francesco


  • Moderatore

    Ciao Francesco,

    Se i vecchi URL rispondono con un 301, prima o poi Google li ricontrollerà e andrà tutto a posto.
    Questo è quanto in G ti dicono di fare. Non specificano quanto tempo ci metterà.

    Se oltre ai 301 impostati correttamente hai anche l'elenco dei vecchi URL, questo è quanto farei io (e che Google t'avverto non incoraggia) per accelerare i tempi:
    genererei una sitemap xml temporanea con i vecchi URL, la invierei a GWT così che la visiti e faccia prima ad apprendere dei 301.

    Spero d'esserti stato utile


  • User Attivo

    ho lo stesso problema.
    pagine identiche con url differenti.

    due domande:

    1. esiste un tool che mi aiuti a scoprire tutte le pagine che hanno questo problema?
      in webmaster tool me ne segnala alcune, ma se le individuassi tutte e correggessi il problema in un colpo solo prima di ricevere la segnalazione di google sarebbe ovviamente meglio.

    2. oltre a reindirizzare un url verso un altro tramite htaccess sarebbe utile tramite robots.txt dire a google di non fare più la scansione sulla pagina che effettua il reindirizzamento?
      anche se così facendo rischierei di tagliare fuori dall'indice la pagina con l'url vecchio, che in alcuni casi potrebbe essere posizionata meglio di quella con l'url nuovo


  • Moderatore

    Ciao Alekos,
    @Alekos said:

    1. esiste un tool che mi aiuti a scoprire tutte le pagine che hanno questo problema?
      in webmaster tool me ne segnala alcune, ma se le individuassi tutte e correggessi il problema in un colpo solo prima di ricevere la segnalazione di google sarebbe ovviamente meglio.
      Scusa non mi è chiaro cosa dovrebbe segnalare esattamente. I contenuti duplicati in seguito al cambio URL?
      Il tool dovrebbe conoscere lo stato prima, dopo, e la logica di URL-rewriting impostata.
      Non sono a conoscenza di un tool che oggi sappia farlo, anche se non è detto non appaia in futuro...

    Nel frattempo, vedi se il suggerimento ho dato nella risposta precedente si può applicare anche al tuo caso.

    @Alekos said:

    1. oltre a reindirizzare un url verso un altro tramite htaccess sarebbe utile tramite robots.txt dire a google di non fare più la scansione sulla pagina che effettua il reindirizzamento?
      No, sarebbe solo controproducente oltre che inutile:

    Controproducente perché se al bot del motore di ricerca è impedito da robots.txt visitare il vecchio URL, gli sarà impossibile apprendere del redirect 301 e aggiornare l'indice.

    Inutile perché bloccare via robots.txt al bot l'accesso a un URL non ne impedisce l'indicizzazione.
    In questo caso l'URL è già indicizzato, bloccarlo da robots.txt non ne implica la rimozione dall'indice (è un prerequisito per richederne la rimozione manuale, ma non è quanto devi fare: il redirect 301 è la soluzione corretta al problema).

    @Alekos said:

    anche se così facendo rischierei di tagliare fuori dall'indice la pagina con l'url vecchio, che in alcuni casi potrebbe essere posizionata meglio di quella con l'url nuovo
    Una volta che Google scopre il redirect 301 e aggiorna i propri indici, tutto il suo "patrimonio", il "valore" a esso associato sarà trasferito al nuovo URL. Se a regime il posizionamento con il nuovo URL sarà inferiore, la cosa non sarà dovuta al cambio URL ma andrà ricercata in altre cause.

    Spero d'esserti stato utile


  • User Attivo

    chiarissimo il consiglio relativo al punto due.

    torno sul punto uno perchè forse nel precedente messaggio sono stato poco chiaro.

    nel mio sito uso joomla.

    i link originari sono quelli non riscritti.
    poco dopo aver creato il sito (ti parlo di circa 5 anni fa) ho cmq usato un componente che li ha riscritti.

    da qualche mese invece purtroppo, ristrutturando il sito, ho creato dei nuovi menu e si sono generati nuovi link per le stesse pagine (senza che si cancellassero i vecchi).

    Per questo il primo problema che ho è quello di scoprire tutte le pagine che effettivamente hanno questi contenuti accidentalmente duplicati.
    poi dovrò valutare (magari col tuo consiglio) se reindirizzare (con 301 tramite htaccess) i link vecchi (meglio indicizzati) ai link nuovi (scrtti meglio) o viceversa.

    spero di essere stato più chiaro e di poter beneficiare ancora del tuo supporto 🙂
    grazie mille!


  • Moderatore

    Se come mi sembra di capire il sito sta usando contemporaneamente sia i vecchi che i nuovi URL, puoi usare il tuo spider di preferenza per individuarli (basta elencare i titoli duplicati).
    Spero d'esserti stato utile


  • User Attivo

    ciao federico grazie ancora.

    che intendi per spider di preferenza?? scusa per la domanda banale, ma che io ne sappia gli spider sono i crawler dei motori di ricerca.

    facendo una ricerca ho trovato questo programma: Xenu link sleuth che fa una scansione di tutto il sito e dal report si possono effettivamente ricavare le pagine che hanno titoli uguali e quindi probabilmente anche titolo uguale. tuttavia è scomodo perchè il report è un po' disordinato e non si può esportare in altri formati per lavorarci meglio.

    sarebbe utile uno strumento che faccia qualcosa del genere ma in modo un po' più user-friedly 😉

    grazie ancora


  • Moderatore

    Oh, difficile così a memoria ricordare tool alternativi... 😉
    Vedi un po' se questa lista ti aiuta http://liste.giorgiotave.it/tools-seo-sem/

    Ciao