• User

    Deindicizzazione url in sitemap

    Se ne è già parlato senza giungere a una conclusione.
    Voglio condividere la mia esperienza per riuscire a capirci qualcosa:

    Il mio sito (wemedia . it) fa parte della bistrattata categoria degli aggregatori. Ho una sitemap index che incremento più o meno mensilmente, quindi per semplicità consideriamo:
    ...
    novembre . xml
    dicembre . xml
    gennaio. xml

    e quotidianamente incremento la sitemap del mese corrente con qualche centinaio di url.
    Quindi una sitemap mensile contiene mediamente 10.000/15.000 url
    Webmaster tools di Google non dice QUALI url della sitemap sono indicizzati ma osservo che la sitemap del mese in corso (aggiornata quotidianamente) viene scaricata ogni giorno e circa la metà degli url vengono indicizzati, mentre le sitemap dei mesi più vecchi vengono progressivamente svuotate (il numero di url indicizzati diminuisce costantemente).
    Il numero di url complessivamente indicizzati non cresce, anzi nel mio caso si è ridotto da 20.000 a 16.000

    Il comportamento di Google mi pare giusto: un sito appena nato che (per ipotesi) invia una sitemap con un milione di url, deve in qualche modo dimostrare di meritare che i suoi contenuti siano indicizzati. La velocità di indicizzazione e il numero di url indicizzati nella sitemap sono proporzionali al trust del sito.

    Inoltre osservo che il comando site: segue lo stesso trend; gli url indicizzati sembrano raggiungere un limite fisico difficile da sfondare.
    L'ipotesi plausibile è che Google deindicizzi gli url con contenuto duplicato oltre aquelli più vecchi non più raggiunti dal crawling.
    Che ne pensate?

    Dominio:
    wemedia . it

    Motori:
    Google

    Prima indicizzazione o attività:
    Settembre 2009

    Cambiamenti effettuati:
    nessuno

    Eventi legati ai link:
    nessuno

    Sito realizzato con:
    php mysql

    Come ho aumentato la popolarità:
    seo

    Chiavi:
    nessuna

    Sitemaps:
    Si


  • Moderatore

    La situazione è come l'hai descritta: ogni sito, valutata la sua autorità, la sua struttura, il numero di backlink che riceve su pagine interne, la percentuale di contenuti originali e qualche altro parametro ha un limite di pagine indicizzabili.

    Che questo limite sia imposto ("Gentile wemedia . it, visti e valutati i parametri sopracitati, non può avere più di 10.000 url indicizzati") o derivato ("Gentile wemedia . it, visti e valutati i parametri sopracitati, non può avere più di 10.000 Mb scaricati dal nostro crawler che li utilizzarà come meglio crede) non fa alla fine grossissima differenza.

    Si noti che una pagina fuori dall'indice, forse neppure scansionata, rappresenta un vero "buco nero" per la seo: ogni link verso quella risorsa sarà PageRank buttato via, come ogni contenuto in essa, come ogni visitatore proveniente da Google, come ogni backlink ricevuto. Facile immaginare l'effetto a catena (o il "miglioramento a catena" qualora si riuscisse ad invertire la tendenza).

    Interessante stabilire quali pagine vengano escluse dall'indice: logica vorrebbe si trattasse delle più distanti (in termini di clic) dai backlink del sito.

    Visto che esiste pure la de-indicizzazione causata dai contenuti duplicati, capire quale sia la reale origine di ogni singola perdita (data la natura disomogenea del crawling) è certamente una sfida.
    Quello che credo è che i contenuti duplicati vengano cancellati quando superati in "trust" da altre pagine simili: questo spiegherebbe una loro cancellazione progressiva con l'aumento della distanza dalle "fonti" di PageRank.

    Passiamo agli interventi che valuterei (ma non ho mai avuto occasione di testare):

    • Verificare la struttura interna del sito;
    • Alleggerire le pagine, facilitare il download a Googlebot;
    • Decidere in prima persona quali pagine togliere dagli indici, sacrificando quelle che portano meno traffico (correggendo anche tutti i link del sito verso quelle pagine);
    • Sostituire le pagine "sparite" con redirect 301 verso pagine simili, per limitare l'effetto "buco nero";
    • Cercare backlink "profondi".

    Fermo restando, ovviamente, l'aiuto sostanziale della seo "generica" fatta di cura on page e buoni backlink.
    Sarei molto curioso di capire cosa accadrebbe al sito nel complesso a fronte di una diminuzione della lentezza di caricamento delle pagine in archivio del 10%.

    Spero di aver centrato l'argomento del quale volevi parlare e di averlo fatto in maniera chiara ed utile al tuo scopo; resto a disposizione della discussione.

    A chiunque volesse approfondire l'argomento, consiglio quest'autorevole post seomoz.org/blog/googles-indexation-cap


  • User

    Ciao.
    Il post che hai segnalato è molto interessante ma sostanzialmente conferma l'impressione che avevo.
    La de-indicizzazione non dipende dalla struttura della sitemap, che, anzi, aiuta a capire che sono stati cancellati gli url più vecchi.

    Sul fronte dei contenuti duplicati un aggregatore deve stare particolarmente attento ma per il momento sembra tutto ok, solo qualche singola pagina, saltuariamente.

    Quindi il problema è solo di gioventù: PR1, poco trust, pochi backlink