• User

    Deindicizzazione... ci risiamo

    Buon giorno a tutti

    Ho un problema con un mio ecommerce sono arrivato ad un picco di tot pagine indicizzate ma al momento sta avvenendo un lenta e progressiva deindicizzazione. Sono arrivato ad un picco di 150k pagine indicizzate e ad oggi sono sceso a 90k.

    alt text

    Ho inviato 178.765 pagine uniche immagini,titoli, descrizioni differenti con link canonico appropriato. Le sitemap le ho suddivise seguendo le linee guida google. Ogni venerdì con uno script in python interrogo il database e vedo se ci sono articoli nuovi ricreo le sitemap, le ricarico nel ftp e le rinvio a google potrebbe essere questo un problema magari di sovraccarico?

    alt text

    Ho una migrazione continua di pagine da indicizzata a pagina scansionata ma attualmente non indicizzata qualcuno potrebbe darmi qualche spunto per cambiare questo trend ? grazie.

    alt text

    Maggiori informazioni:
    le pagine prodotto sono dinamiche
    tutti i prodotti sono elencati nelle varie pagine categorie
    le pagine prodotto sono veloci perchè provengono da database, le ricerce e le pagine categorie leggermente più lente perchè sotto proxy.
    non ho nessun redirect, url rewrite
    nel file robot ho solo indicato l'url della sitemap generale.


    sermatica 1 Risposta
  • Contributor

    Hai problemi di canonicalizzazione.

    Moltissime URL non hanno il rel canonical, ma Google le ha comunque marcate come duplicate.

    Anche per un numero rilevante Google ha scelto una pagina canonica diversa rispetto a quella specificata.

    Problemi di canonicalizzazione dovuti probabilmente a problemi di duplicazione del contenuto. Google sta facendo fatica a capire quale parte del tuo sito è buona e quale invece è solo una copia.

    Per questo motivo ti ritrovi con problemi di indicizzazione.

    Devi consolidare le URL e dare indicazioni di canonicalizzazione corrette e coerenti.


    F 1 Risposta
  • User

    @kal

    Grazie della risposta
    come fai a vedere che non hanno il canonical? Perchè mi sembra strano lo creo dinamicamente

    <link rel="canonical" href="https://informaticavicenza.it/prodotto.php?a=<?php echo $asin; ?>&s=<?php echo $_GET['s']; ?>" />

    Poi come ho scritto son sicuro che non ho prodotti duplicati perchè le prendo da una fonte sicura con id differenti quindi son certo che i contenuti son differenti


  • Contributor

    Dallo screenshot che hai postato 🙂

    Hai 8K pagine duplicate senza URL canonico
    3K con canonical appropriato
    2,3K con Google che sceglie una pagina canonica differente

    In totale hai più di 10K pagine in cui Google si arrangia a definire la canonicalizzazione.

    Contro appena 3K dove accetta la tua indicazione.

    E queste sono solo quelle che si è degnato di scansionare... perché come hai già notato ne hai 54K che ancora non ha scansionato. Più tutte quelle che ha scansionato ma non ha voluto indicizzare.

    È chiaro che non stai canonicalizzando correttamente.

    Poi sul perché o il percome bisogna vedere concretamente... ma mi sembra palese che ci sia un problema strutturale di fondo.


  • Moderatore

    @filippo8585 ha detto in Deindicizzazione... ci risiamo:

    Ciao Filippo,
    mi aggiungo alle ottime info che ha scritto Kal.

    Ho inviato 178.765 pagine uniche immagini,titoli, descrizioni differenti con link canonico appropriato.

    Quante Categorie e prodotti ha tuo Shop?

    Le sitemap le ho suddivise seguendo le linee guida google. Ogni venerdì con uno script in python interrogo il database e vedo se ci sono articoli nuovi ricreo le sitemap, le ricarico nel ftp e le rinvio a google potrebbe essere questo un problema magari di sovraccarico?

    Le Sitemap andrebbero caricate nella GSC e poi, salvo problemi, non tolte e rimesse. Poi il cms si occupa di aggiornarle, google vede i cambiamenti e legge le nuove url. Che Cms usi? Non crea le Sitemap in modo automatizzato?

    P.s.
    Rilevo alcune categorie del tuo Shop vuote, es. ipad. Rilevo anche che le url delle categorie hanno il ? nell'url, cosa non proprio ottimale.


    F 1 Risposta
  • Contributor

    Ho visto ora il sito.

    Aggiungo, hai qualcosa come 5 secondi di TTFB, è una roba enorme e ingestibile.

    Immagine 2022-11-14 142715.png

    Inoltre, stai facendo indicizzare i risultati di ricerca.

    Immagine 2022-11-14 142807.png

    Chiaro che poi ti ritrovi con una vagonata di pagine duplicate o senza contenuti.

    Suggerisco di:

    • utilizzare categorie predeterminate invece dei risultati di ricerca
    • CACHA LE PAGINE DI CATEGORIA DIAMINE
    • blocca via robots.txt le pagine di ricerca
    • ah e magari ripulisci il catalogo dai prodotti non rilevanti

    Buon lavoro :3:


  • User

    Ciao @sermatica grazie della risposta

    Quante Categorie e prodotti ha tuo Shop?

    A menu circa 52 a ricerca praticamente infinite

    Le Sitemap andrebbero caricate nella GSC e poi, salvo problemi, non tolte e rimesse. Poi il cms si occupa di aggiornarle, google vede i cambiamenti e legge le nuove url. Che Cms usi? Non crea le Sitemap in modo automatizzato?

    Non uso un cms scrivo tutto a mano. Quindi mi stai confermando che devo agire per aggiunta e che non devo sovrascrivere ogni volta? Come immaginavo ottimo grazie

    Rilevo alcune categorie del tuo Shop vuote, es. ipad. Rilevo anche che le url delle categorie hanno il ? nell'url, cosa non proprio ottimale.

    Non sono vuote non generano risultati perchè non parte lo scrape ogni tanto mi si blocca il loop lo sto studiando per dirti a me stamattina ha caricato subito ipad

    alt text

    @kal

    Aggiungo, hai qualcosa come 5 secondi di TTFB, è una roba enorme e ingestibile.

    i processi di ricerca, quindi anche il click di una categoria che non è altro che una ricerca hanno quelle tempistiche poichè mi collego ad una risorsa esterna e vado in scraping live tramite multi-proxy. I contro sono dei tempi di risposta che ho calcolato in 4/5 secondi i pro che ho sempre categorie/prodotti aggiornati e non devo metterci mano manualmente io. Praticamente è un sito che si ingrandisce e si tiene aggiornato in maniera automatica.

    Inoltre, stai facendo indicizzare i risultati di ricerca.

    Non pensavo che i crawler di google riuscissero a indicizzare una pagina dinamica generata dopo una ricerca non inviata tramite sitemap. Adesso metto i link da menu categoria?= e le ricerche rimangono ricerca?= e setto il noindex. Ottimo consiglio non ci avevo pensato


    kal 2 Risposte
  • Contributor

    @filippo8585 ha detto in Deindicizzazione... ci risiamo:

    I contro sono dei tempi di risposta che ho calcolato in 4/5 secondi

    È troppo. Deve metterci al massimo 100-200 MILLIsecondi.

    Crea le categorie e cacha la URL.

    Al limite crea un processo per aggiornare la versione cachata con una frequenza che ti pare sensata.

    Ma anche la ricerca... Dovresti farla su un indice cachato.

    Se la fai live e ci mette 5 secondi è assolutamente inutile.

    Una ricerca DEVE essere veloce.

    In 5 secondi hai perso l'utente.


  • Contributor

    @filippo8585 ha detto in Deindicizzazione... ci risiamo:

    Non pensavo che i crawler di google riuscissero a indicizzare una pagina dinamica generata dopo una ricerca non inviata tramite sitemap.

    I crawler di Google indicizzano tutto l'indicizzabile.

    L'ideale è sempre avere un'architettura del contenuto accuratamente pianificata.

    La scalabilità è una cosa buona, ma non può andare fuori controllo... Altrimenti succede quello che hai mostrato nello screenshot su in alto.


    F 1 Risposta
  • User

    @kal

    e quindi arriviamo alla fatidica domanda un ecommerce per un azienda it che non ti fornisce db come lo puoi accuratamente pianificare ?


    kal 1 Risposta
  • Contributor

    @filippo8585 non puoi 😂

    Mi spiace per il giudizio tranchant, ma è l'amara verità.

    Un e-commerce è al 99% logistica, magazzino, giacenze, automazione in tempo reale... Se manco hai il DB parti MALISSIMO e soprattutto sarai sempre dietro un qualunque concorrente.


    F 1 Risposta
  • User

    @kal

    Mi hai dato una grande risposta che mi fa pensare che meglio di cosi difficilmente posso fare, grazie.


    kal 1 Risposta
  • Contributor

    @filippo8585 qualcosa di meglio comunque puoi fare.

    Staticizzare le categorie e cachare la lista prodotti non dovrebbe essere troppo complicato se hai sviluppato tutto a manina.