A proposito di contenuti duplicati

gik25

A proposito di contenuti duplicati

Se un testo è pubblico e compare su 1500 siti, identico tranne che per il codice html, google penalizza anche solo uno dei siti. è chiaro che non staranno tutti primi, mi chiedo se vengano proprio cancellati dalle serp tutti tranne uno.

è così?

Secondo punto. Quante pagine indicizza google? confrontare 1000 pagine sono 1 milione di confronti. Confrontarne 1 milione sono mille miliardi. Ok approssimazioni, vector model, gruppi e classi, ma cambio due virgole e ritrova ancora i contenuti duplicati?

paolino

@gik25 said:

Se un testo è pubblico e compare su 1500 siti, identico tranne che per il codice html, google penalizza anche solo uno dei siti. è chiaro che non staranno tutti primi, mi chiedo se vengano proprio cancellati dalle serp tutti tranne uno.

è così?

Secondo punto. Quante pagine indicizza google? confrontare 1000 pagine sono 1 milione di confronti. Confrontarne 1 milione sono mille miliardi. Ok approssimazioni, vector model, gruppi e classi, ma cambio due virgole e ritrova ancora i contenuti duplicati?

no le pagine duplicate non vengono rimosse dall'indice ( a meno che oltre ad essere duplicate non abbiano altri problemi )....si tratta semplicemente di filtrare i contenuti duplicati all'atto della costruzione della SERP

ovviamente per determinare chi è la vera fonte del contenuto è complesso...Live e Yahoo ci riescono meglio, Google un pò meno

riguardo il numero di confronti non è un problema....infatti Google calcola un hash e il confronto diventa pressochè banale e molto veloce ( l'hash infatti andrebbe calcolato comunque )

attualmente grazie all'implementazione di alcuni algoritmi tipo quello della distanza di Levenshtein, riescono a rilevare anche contenuti quasi-duplicati, quindi anche se cambi pezzi del testo, comunque rileverà la distanza tra il testo cambiato e quello originale e se tale distanza non è sufficientemente grande lo considererà duplicato

gik25

@paolino said:

no le pagine duplicate non vengono rimosse dall'indice ( a meno che oltre ad essere duplicate non abbiano altri problemi )....si tratta semplicemente di filtrare i contenuti duplicati all'atto della costruzione della SERP

ovviamente per determinare chi è la vera fonte del contenuto è complesso...Live e Yahoo ci riescono meglio, Google un pò meno

riguardo il numero di confronti non è un problema....infatti Google calcola un hash e il confronto diventa pressochè banale e molto veloce ( l'hash infatti andrebbe calcolato comunque )

attualmente grazie all'implementazione di alcuni algoritmi tipo quello della distanza di Levenshtein, riescono a rilevare anche contenuti quasi-duplicati, quindi anche se cambi pezzi del testo, comunque rileverà la distanza tra il testo cambiato e quello originale e se tale distanza non è sufficientemente grande lo considererà duplicato

Non sono convintissimo però.
L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).

Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?

paolino

@gik25 said:

Non sono convintissimo però.
L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).

Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?

c'è un post a proposito del metodo usato da Google....cerca nel forum BigTable....

ad ogni modo è quello che fanno e con quasi mezzo milione di server possono permetterselo

riguardo la distanza di Levenshtein non è che usino proprio quella...in genere Google implementa propri algoritmi per qualsiasi cosa, quindi non è improbabile che abbiano un metodo di calcolo loro

poi l'hash viene calcolato su blocchi di testo non per singole parole....si tratta alpiù di calcolare 40-50 miliardi di hash