• User Attivo

    Analisi filtro duplicazione google

    Sto cercando di analizzare il perché di un drastico calo delle pagine indicizzate da parte del sito irolli.it che é passato da + di 400 pagine alle attuali 86 (il calo ha comportato chiaramente anche un calo degli accessi!)
    In particolare il sito parla di alcuni palazzi di Genova (163) del 1500 con una scheda descrittiva per ciascuno. A parte una decina in cui la scheda é molto breve, e un'altra decina di palazzi dove sono presenti dei musei e quindi le informazioni potrebbero essere ripetute, gli altri hanno tutti scheda dettagliata e originale.

    Eseguendo il comando site:www. irolli .it/genova (senza spazi, chiaramente) vengono ritornate 27 pagine (contro le 188 di una settimana fa). Tra queste pagine dovrebbero esserci le 163 dei palazzi, ne sono presenti solo 2:

    Palazzo Piazza San Giorgio 32 - I Palazzi dei Rolli di Genova
    www . irolli .it/genova.php/opz=PALAZZO/dir=piazza_san_giorgio_32
    
    Palazzo Piazzetta Tavarone 5 di - Palazzi dei Rolli - Genova
    www . irolli .it/genova.php/opz=PALAZZO/dir=piazzetta_tavarone_5
    

    Di cui il primo é il palazzo dove abito e linkato dal sito del mio b&b.
    Dove sono finiti gli altri 161 palazzi?


    Alcune premesse:

    1. il sito é giovane (meno di un anno) poiché l'associazione dei Palazzi dei Rolli ha lasciato scadere il sito originale (palazzideirolli . it) che é stato acquisito da un sito SPAM e quindi il nuovo sito per evitare problemi l'abbiamo registrato come persone private. Però il sito precedente era del 2000 (circa) e le schede erano già tutte inserite su quel sito (con layout diverso dall'attuale)

    2. un paio di settimane fa ho cambiato il layout, da tabellare a CSS

    3. ho notato che alcuni siti hanno utilizzato le descrizioni delle nostre schede, magari solo per evidenziare il valore del proprio palazzo (ma senza citare la fonte!). Mai (almeno dalla mia ricerca) in modo massivo. In pratica non c'é una copia vera e propria del sito (o almeno non l'ho trovata)


    In definitiva non so bene cosa pensare. Mi sembra strano che la causa possano essere i CSS. D'altro canto mi sembra strano che tutti i palazzi meno due (quelli effettivamente indicizzati) possano essere stati copiati da siti + importanti di questo.
    Mi viene anche il dubbio che ci possa essere un filtro tra questo sito e quello che c'era nel 2000 (anche se adesso non esiste +!)

    Qualcuno mi aiuta a trovare l'inghippo?


  • Super User

    Fai una ricerca del tipo site:irolli.it/genova e noterai che alla fine dei risultati alcune pagine non vengono mostrate perché ritenute troppo simili a quelle già presentate all'utente.

    Falle mostrare cliccando sull'apposito link e cerca di capire:

    1. Perché proprio quelle pagine incappano nel filtro antiduplicazione;

    2. Come il loro "deprezzamento" da parte di Google può aver influito sull'indicizzazione delle altre pagine del sito.

    P.S. Hai una mappa del sito? Se no, ti consiglio di aggiungerla.


  • User Attivo

    Le pagine che mette in fondo mi stanno anche bene, sono diverse visualizzazioni degli elenchi di palazzi. Il problema vero é che le 160 schede di palazzi, inserite una ad una a mano e sicuramente originali (perché come associazione è dal 2000 che portiamo avanti 'sta cosa) sono sparite.

    La mappa del sito viene da se' in quanto la maggior parte dei menu' (a parte "chiese" e "edicole votive", aggiunte dopo e di cui abbiamo un interesse marginale) puntano a vari elenchi dei palazzi dei rolli, con link puliti puliti.

    Quello che non mi spiego é come una pagina come questa [url=http://www.irolli.it/genova.php/opz=PALAZZO/dir=largo_zecca_4] "palazzo di largo zecca 4" non sia presente nonostante sia una scheda assolutamente originale e che fosse presente fino alla settimana scorsa!!!

    Per questo mi chiedo se non possa essere scattato un filtro antiduplicazione rispetto al sito del 2000 non più in nostro possesso (e che non ha più le pagine relative)


  • Super User

    @margheritebianche said:

    Le pagine che mette in fondo mi stanno anche bene, sono diverse visualizzazioni degli elenchi di palazzi. Il problema vero é che le 160 schede di palazzi, inserite una ad una a mano e sicuramente originali (perché come associazione è dal 2000 che portiamo avanti 'sta cosa) sono sparite.

    Ai palazzi ci si arriva con una strada. Se ti filtrano via gran parte delle strade, gli spider ci arrivano più difficilmente.

    La mappa del sito viene da se' in quanto la maggior parte dei menu' (a parte "chiese" e "edicole votive", aggiunte dopo e di cui abbiamo un interesse marginale) puntano a vari elenchi dei palazzi dei rolli, con link puliti puliti.

    La mappa servirebbe a puntare ai palazzi, non agli elenchi che rimandano ai palazzi.

    Quello che non mi spiego é come una pagina come questa [url=http://www.irolli.it/genova.php/opz=PALAZZO/dir=largo_zecca_4] "palazzo di largo zecca 4" non sia presente nonostante sia una scheda assolutamente originale e che fosse presente fino alla settimana scorsa!!!

    Beh, sul cambiamento in sé non mi stupirei molto, in quanto già da qualche mese diversi siti che usavano strutture tabellari con pochi contenuti hanno notato problemi di indicizzazione. Gli algoritmi di Google cambiano di continuo.

    Di fatto, al secondo livello del tuo sito tu hai pagine prive di contenuti testuali e contenenti solo link tabellati, isolati da qualunque testo ed conseguentemente estranei a qualunque contesto. Per di più duplicate.

    Con un sito popolare, questo non è un problema. Ma con un sito meno popolare questo significa che gli spider devono fare uno sforzo in più di buona volontà, per decidere di approfondire il crawling per cercare contenuti veri.

    Non puoi sperare in un regalo degli spider, devi dargli buoni motivi per approfondire il crawling, aumentando la popolarità del sito, facendogli raggiungere i contenuti con link più diretti, evitando la duplicazione, evitando i link privi di contesto.

    Ti consiglio anche di fare un giro su Copyscape.com perché prendendo [url=http://www.copyscape.com/view.php?o=68403&u=http%3A%2F%2Fwww.stradanuova.it%2Fgambaro.htm&t=1146510058&s=http%3A%2F%2Fwww.irolli.it%2Fgenova.php%2Fopz%3DPALAZZO%2Fdir%3Dvia_garibaldi_2&w=65&c=]un palazzo a caso ho trovato altri siti che ne copiano interamente la descrizione.

    Ultimamente diversi siti hanno avuto problemi di indicizzazione. Potrebbe essere un proglema di Google.

    Io non rimarrei fermo, comunque. Spazio per le migliorie ce n'è sempre.


  • User Attivo

    Premesso che hai beccato uno dei 10 palazzi che é anche museo e che quindi viene giustamente rilevato duplicato, rimane il problema degli altri 150.

    Su alcuni punti non sono d'accordo:

    1. le pagine "elenco" sono tutte indicizzate e oltre alla struttura tabellare una buona parte ha anche del testo dettagliato e univoco (ad esempio: http://www.irolli.it/genova.php/opz=ZB)

    2. il sito non ha più struttura tabellare, almeno nel suo layout (all'interno persistono delle tabelle che andrò un po' alla volta ad eliminare), quindi non capisco la frase "diversi siti che usavano strutture tabellari con pochi contenuti hanno notato problemi di indicizzazione"

    3. Lo spider passa abitualmente anche sulle pagine interne dei palazzi (che ripeto, erano indicizzate fino ad una settimana fa!)

    Del fatto che google abbia messo in atto un pesante filtro antiduplicazione non ho dubbi e ho avuto esperienza anche in altri siti. Ma in questi era motivabile in qualche modo (l'esempio classico é la galleria fotografica in cui cambia solo il titolo e didascalia e che quindi lui ha + o - giustamente segato)
    Questo caso é, secondo me, particolare.

    A me interessava principalmente capirne la motivazione ma al momento non riesco a trovare nessuna spiegazione logica che indichi il motivo della cancellazione di tutte queste pagine (ad esempio quella segnalata prima) che sono sicuramente, per loro natura stessa, in quanto oggetto di studio particolareggiato, originali.

    Se qualcuno ha qualche idea + in dettaglio il sito é a disposizione per esperimenti. Per l'associazione in quanto tale è già un ottimo risultato essere primi con "palazzi dei rolli" o "palazzi dei rolli genova". L'interesse in questo caso é più rivolto a capire le motivazioni di questo taglio di pagine.


  • Super User

    @margheritebianche said:

    1. le pagine "elenco" sono tutte indicizzate e oltre alla struttura tabellare una buona parte ha anche del testo dettagliato e univoco (ad esempio: http://www.irolli.it/genova.php/opz=ZB)

    Questi elenchi:

    I palazzi nel rollo del 1566
    I palazzi nel rollo del 1588
    I palazzi nel rollo del 1599
    I palazzi nel rollo del 1614
    I palazzi nel rollo del 1664

    Sono privi di contenuti testuali e le pagine risulteranno duplicate al 80 o 90 percento.

    Capisco che qualche pagine si possa differenziare, ma dovresti guardare ai contenuti complessivi.

    1. il sito non ha più struttura tabellare, almeno nel suo layout

    Mi riferivo alle tabelle utilizzate per gli elenchi. Ogni link alla pagina dei palazzi è imprigionato in una cella, senza testo descrittivo vicino, fuori da ogni contesto. Tecnicamente, è qualcosa che si avvicina molto ad una link farm: lunga lista di link decontestualizzati in una pagina priva di altri testi.

    1. Lo spider passa abitualmente anche sulle pagine interne dei palazzi (che ripeto, erano indicizzate fino ad una settimana fa!)

    Questo elemento lo fa somigliare ad un recente bug di Google, sono stati segnalati altri casi simili negli ultimi giorni.

    Personalmente ho notato che questo problema si manifesta spesso con siti con testi tabellari (ovvero poche parole inserite in celle di tabelle).

    Quindi, invece di attendere che Google aggiusti le cose, questa potrebbe essere un'opportunità in più per tematizzare meglio i link del sito (una mappa del sito sarebbe una buona cosa), evitare l'esistenza di pagine troppo simili (vedi gli elenchi) e incrementare la popularity.


  • Super User

    hai messo su la sitemap di Google ?


  • User Attivo

    @nbriani said:

    hai messo su la sitemap di Google ?

    No!
    Ma le pagine erano già tutte indicizzate da tempo!


  • Super User

    consiglio:prova a metterla su allora...

    io ho risolto diversi errori di indicizzazione di siti con un numero alto di pagine che o mancavo dall'indice o erano indicizzate senza descrizione...


  • User Attivo

    Però qui stiamo parlando di pagine che erano indicizzate e non lo sono più...


  • Super User

    la mia esperienza con siti DINAMICI che generano un gran numero di pagine da db di contenuti piu' o meno molto simili fra loro, è che sia il numero delle pagine indicizzate che le modalità di visualizzazione non è "stabile" su gg.

    Ho potuto constatare con molto piacere, pero', come l'inserimento di sitemaps, anche a siti esistenti e indicizzati da tempo, abbia stabilizzato e migliorsato DI MOLTO il "fenomeno"...

    Poi fai come credi, ma non mi sembra che ti possa far male.. soprattutto ora che attraverso la sitemaps si ha accesso a diverse informazioni sull'impatto degli spider sulle pagine...

    :ciauz:


  • User Attivo

    Non per farmi pubblicità 😛 ma ne ho giusto parlato ieri sul mio blog, proprio del tema del [url=http://seo.nicolariva.it/calo-delle-pagine-indicizzate/194/]calo delle pagine indicizzate e te lo dico perchè anche io ho riscontrato la tua stessa situazione. Quello che 'ieri' non veniva considerato come contenuto duplicato, 'oggi' invece lo è. Nel mio caso era dovuto a un palese errore tecnico che replicava le meta-description in tutte le pagine e comprendo appieno la reazione di Google, ma credo che il filtro del contenuto duplicato sia stato di recente modificando, diventando più cattivo.

    La soluzione del problema sta proprio nel fare apparire quelle pagine che secodno google hanno contenuto duplicato come differenti. Aumentando testi, diminuendo ripetizioni..e poi fornendo una buona mappa (sia google sitemap) che non, per fargli riprendere ogni pagina nell'indice.


  • User Attivo

    Nel tuo blog scrivi quello che LowLevel diceva poco fa, ossia che "se google visualizza la dicitura 'ripetere la ricerca...' allora quelle pagine sono non considerate".

    Nel mio caso le pagine non ci sono neanche cliccando su "ripetere la ricerca". Non ci sono proprio.

    E nell'esempio di prima (http://www.irolli.it/genova.php/opz=PALAZZO/dir=largo_zecca_4) dove i contenuti ci sono, non sono duplicati (almeno cercandoli non si trovano in google) e il testo é predominante rispetto a tutto il resto, davvero mi é difficile pensare che sia un filtro duplicazione (e così per le altre 150 pagine).

    Sono d'accordo su sitemap e tutto il resto, ma se uno scrive una pagina di contenuto completamente originale, se questa pagina é già indicizzata completamente, cos'é che può aver fatto scattare il filtro???

    Premetto che in questo caso specifico, per questo sito, non ho interessi particolari ad indicizzare le altre pagine, in fondo ben pochi cercano "largo zecca 4".
    L'interesse é capire grazie al fatto di avere contenuti sicuramente unici, perché é scattato un filtro di questo tipo.


  • User Attivo

    Dovrei darci un'occhiata con maggior tempo a disposizione, ma scusa, le pagine di cui lamenti la perdita di indicizzazione son linkate e collegate da pagine che vengon giudicate da Google come pagine di contenuto duplicato o sbaglio?

    A me sembra sia cosi..e forse potrebbe dipendere da questo. Se Google reputa la pagina XYZ affetta da contenuto duplicato in modo da sostanzialmente celarla nel suo indice, perchè dovrebbe invece far risaltare le pagine linkate da quelle che son penalizzate? A me sembra logico come discorso...ma è una mia ipotesi..


  • User Attivo

    No, le pagine che linkano non sono "sospette", sono negli indici correttamente. facendo site:www.irolli.it/genova i primi 8 risultati sono tutti elenchi in cui sono presenti i palazzi.
    Chiaro, fosse scattato il filtro lì era corretto non trovare niente a livello inferiore. Ma così...

    Riprovo a sintetizzare i punti salienti:

    1. ho cambiato layout
    2. c'era un sito, fino all'anno scorso (palazzideirolli) che é stato utilizzato come spam siccome l'abbiamo fatto scadere (nostra culpa) in cui prima c'erano le stesse schede
    3. [me n'é venuta in mente un altro] una decina di giorni fa é stato inserito nella directory di virgilio, in sostituzione al sito SPAM (dietro mia richiesta)