• User Attivo

    A proposito di contenuti duplicati

    Se un testo è pubblico e compare su 1500 siti, identico tranne che per il codice html, google penalizza anche solo uno dei siti. è chiaro che non staranno tutti primi, mi chiedo se vengano proprio cancellati dalle serp tutti tranne uno.

    è così?

    Secondo punto. Quante pagine indicizza google? confrontare 1000 pagine sono 1 milione di confronti. Confrontarne 1 milione sono mille miliardi. Ok approssimazioni, vector model, gruppi e classi, ma cambio due virgole e ritrova ancora i contenuti duplicati?


  • Moderatore

    @gik25 said:

    Se un testo è pubblico e compare su 1500 siti, identico tranne che per il codice html, google penalizza anche solo uno dei siti. è chiaro che non staranno tutti primi, mi chiedo se vengano proprio cancellati dalle serp tutti tranne uno.

    è così?

    Secondo punto. Quante pagine indicizza google? confrontare 1000 pagine sono 1 milione di confronti. Confrontarne 1 milione sono mille miliardi. Ok approssimazioni, vector model, gruppi e classi, ma cambio due virgole e ritrova ancora i contenuti duplicati?

    no le pagine duplicate non vengono rimosse dall'indice ( a meno che oltre ad essere duplicate non abbiano altri problemi 😄 )....si tratta semplicemente di filtrare i contenuti duplicati all'atto della costruzione della SERP

    ovviamente per determinare chi è la vera fonte del contenuto è complesso...Live e Yahoo ci riescono meglio, Google un pò meno

    riguardo il numero di confronti non è un problema....infatti Google calcola un hash e il confronto diventa pressochè banale e molto veloce ( l'hash infatti andrebbe calcolato comunque )

    attualmente grazie all'implementazione di alcuni algoritmi tipo quello della distanza di Levenshtein, riescono a rilevare anche contenuti quasi-duplicati, quindi anche se cambi pezzi del testo, comunque rileverà la distanza tra il testo cambiato e quello originale e se tale distanza non è sufficientemente grande lo considererà duplicato


  • User Attivo

    @paolino said:

    no le pagine duplicate non vengono rimosse dall'indice ( a meno che oltre ad essere duplicate non abbiano altri problemi 😄 )....si tratta semplicemente di filtrare i contenuti duplicati all'atto della costruzione della SERP

    ovviamente per determinare chi è la vera fonte del contenuto è complesso...Live e Yahoo ci riescono meglio, Google un pò meno

    riguardo il numero di confronti non è un problema....infatti Google calcola un hash e il confronto diventa pressochè banale e molto veloce ( l'hash infatti andrebbe calcolato comunque )

    attualmente grazie all'implementazione di alcuni algoritmi tipo quello della distanza di Levenshtein, riescono a rilevare anche contenuti quasi-duplicati, quindi anche se cambi pezzi del testo, comunque rileverà la distanza tra il testo cambiato e quello originale e se tale distanza non è sufficientemente grande lo considererà duplicato

    Non sono convintissimo però.
    L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).

    Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?


  • Moderatore

    @gik25 said:

    Non sono convintissimo però.
    L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).

    Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?

    c'è un post a proposito del metodo usato da Google....cerca nel forum BigTable....

    ad ogni modo è quello che fanno e con quasi mezzo milione di server possono permetterselo

    riguardo la distanza di Levenshtein non è che usino proprio quella...in genere Google implementa propri algoritmi per qualsiasi cosa, quindi non è improbabile che abbiano un metodo di calcolo loro

    poi l'hash viene calcolato su blocchi di testo non per singole parole....si tratta alpiù di calcolare 40-50 miliardi di hash