• User Newbie

    Come ottimizzare l'indicizzazione per sitemap di grandi dimensioni su Search Console?

    Buongiorno a tutti,
    mi chiedevo se esiste un procedura per ottimizzare l'indicizzazione di una "sitemapindex" di un sito di grandi dimensioni (per ora circa 100.000 url complessive) per un progetto che sto seguendo.

    Ho letto le guide su Google in merito alle dimensioni massime (50 MB) e agli url massimi consentiti per ogni sitemap (50.000 url) ma noi, ad esempio, per evitare problemi abbiamo optato per una soluzione di massimo 1000 url a sitemap

    La prima domanda che mi sono posto è stata come dare priorità di indicizzazione agli URL che per noi sono più importanti.

    • Inserendo nei più importanti (che però per noi sono circa 20.000) il tag <priority> ?
    • Inserendole nelle prime sitemap dell'index?
    • Inserendoli all'inizio di ogni sitemap dell'index?
    • inserendo manualmente una sitemap alla volta?
    • Facendo tutte queste cose insieme ?

    Facendo dei test ho notato che su Search Console non si capisce bene il criterio con cui il processo di indicizzazione avvenga.
    Il problema è che il processo è gestibile se si tratta di siti di piccole/medie dimensioni ma con così tanti url ci potrebbero volere anni per avere un'indicizzazione completa.

    Scusate per le tante domande ma online ho trovato poche informazioni chiare in merito a parte un riferimento all'API Indexing che però credo sia un servizio di Google solo a pagamento.

    Grazie.


  • Moderatore

    Ciao
    *>abbiamo optato per una soluzione di massimo 1000 url a sitemap
    *Ok ottimo
    *

    La prima domanda che mi sono posto è stata come dare priorità di indicizzazione agli URL che per noi sono più importanti.*
    Questo lo fai con i link interni, quello che ti consiglio è di creare diverse sitemap, una per le pagine, una per le categorie....
    Ti consiglio anche di strutturare bene le url del sito in modo che puoi controllare per esempio il traffico di /blog o /scarpe

    Il resto delle cose che vuoi fare non serve, segui i consigli sopra.


  • User Newbie

    Grazie per le informazioni. Vedremo se nelle prossime settimane cambierà qualcosa.


  • User Attivo

    @AndreaP85 said:

    Scusate per le tante domande ma online ho trovato poche informazioni chiare in merito a parte un riferimento all'API Indexing che però credo sia un servizio di Google solo a pagamento.

    Ciao Andrea,

    No, l'API Indexing di Google è gratuita. Però è limitata a certi tipi di contenuti.


  • User Newbie

    @aledandrea said:

    Ciao Andrea,

    No, l'API Indexing di Google è gratuita. Però è limitata a certi tipi di contenuti.

    Grazie per l'info ma leggendo mi era parso di capire che fosse gratuita per una quota giornaliera predefinita. Se, però, si vuole aumentare il volume deve fare richiesta a Google e immagino che questo abbia un prezzo, anche se non è molto chiaro in realtà.


  • Moderatore

    Ciao AndreaP85,
    ho notato solo ora questa discussione; è già passata qualche settimana, intervengo per dare un paio di chiarimenti che non credo siano ancora stati dati.
    @AndreaP85 said:

    ...
    La prima domanda che mi sono posto è stata come dare priorità di indicizzazione agli URL che per noi sono più importanti.

    • Inserendo nei più importanti (che però per noi sono circa 20.000) il tag <priority> ?
    • Inserendole nelle prime sitemap dell'index?
    • Inserendoli all'inizio di ogni sitemap dell'index?
    • inserendo manualmente una sitemap alla volta?
    • Facendo tutte queste cose insieme ?

    ...
    Prima di tutto: Google ignora del tutto il tag Priority (riferimento: https://support.google.com/webmasters/answer/183668?hl=it )
    Inutile metterlo, gonfierebbe solo la sitemap.

    Poi: l'ordine degli URL nella sitemap almeno ufficialmente non è indicativo.
    Se sia poi usato implicitamente per come è realizzato il sistema che consuma le Sitemap, è plausibile, ma non è documentato.

    Personalmente le pagine più prioritarie le inserirei in una sitemap dedicata.

    @AndreaP85 said:

    ...
    Il problema è che il processo è gestibile se si tratta di siti di piccole/medie dimensioni ma con così tanti url ci potrebbero volere anni per avere un'indicizzazione completa.
    ...
    Bhé è vero che siti con centinaia di migliaia, o milioni di URL possono richiedere tempi molto lunghi per essere indicizzati, ma è anche vero che le sitemap sono un mezzo per accelerare l'indicizzazione.

    Facciamo un po' di conti:

    se hai 100.000 URL, e il bot di google ti visita ogni 5 minuti (normale per siti nuovi o di dimensioni limitate, o con pochi aggiornamenti di pagina), sono 288 visite al giorno, quindi in 347 giorni - meno di un anno - sarebbero tutte visitate e, si spera, indicizzate.

    Se però cambi l'impostazione della frequenza di scansione (come fare: https://support.google.com/webmasters/answer/48620?hl=it ) massimizzandola a 2 richieste al secondo (NON ti consiglio di spingere così tanto), allora il bot riuscirebbe a visitare tutti gli URL in meno di 14 ore.

    Come detto, NON consiglio di spingere tanto l'impostazione: scegli una frequenza di scansione che non possa mettere in crisi il tuo server.
    Non si tratta solo di banda passante consumata, ma anche e soprattutto di occupazione di memoria visto che ogni richiesta del bot è priva di cookie di sessione e sarebbe vista come una nuova sessione sul web server. Ogni nuova sessione vuole dire per esempio su vecchi server Apache anche 7MB di memoria allocati per circa 20', quindi circa 16 GB di memoria occupati dalle richieste del bot in ogni istante dopo i primi 20'.

    Scegli una frequenza per te accettabile, e ripristina l'opzione originale quando non ti servirà più (dovrebbe ripristinarsi in automatico dopo 90 giorni).
    Tieni anche conto che molte delle pagine saranno già indicizzate da tempo, quindi il problema è probabilmente ancora più ridotto.

    Spero d'esserti stato utile.


  • Moderatore

    Ciao
    alle ottime risposte di Federico aggiungo che ho un sito con circa vdgf e Google mi scansiona in media 29.402 url ogni giorno con picchi di 109.225. Il sito ha più di 110.000 Url, quindi se il sito è di qualità il problema della scansione non si pone.