- Home
- Categorie
- La Community Connect.gt
- News Ufficiali da Connect.gt
- A proposito di contenuti duplicati
-
A proposito di contenuti duplicati
Se un testo è pubblico e compare su 1500 siti, identico tranne che per il codice html, google penalizza anche solo uno dei siti. è chiaro che non staranno tutti primi, mi chiedo se vengano proprio cancellati dalle serp tutti tranne uno.
è così?
Secondo punto. Quante pagine indicizza google? confrontare 1000 pagine sono 1 milione di confronti. Confrontarne 1 milione sono mille miliardi. Ok approssimazioni, vector model, gruppi e classi, ma cambio due virgole e ritrova ancora i contenuti duplicati?
-
@gik25 said:
Se un testo è pubblico e compare su 1500 siti, identico tranne che per il codice html, google penalizza anche solo uno dei siti. è chiaro che non staranno tutti primi, mi chiedo se vengano proprio cancellati dalle serp tutti tranne uno.
è così?
Secondo punto. Quante pagine indicizza google? confrontare 1000 pagine sono 1 milione di confronti. Confrontarne 1 milione sono mille miliardi. Ok approssimazioni, vector model, gruppi e classi, ma cambio due virgole e ritrova ancora i contenuti duplicati?
no le pagine duplicate non vengono rimosse dall'indice ( a meno che oltre ad essere duplicate non abbiano altri problemi
)....si tratta semplicemente di filtrare i contenuti duplicati all'atto della costruzione della SERP
ovviamente per determinare chi è la vera fonte del contenuto è complesso...Live e Yahoo ci riescono meglio, Google un pò meno
riguardo il numero di confronti non è un problema....infatti Google calcola un hash e il confronto diventa pressochè banale e molto veloce ( l'hash infatti andrebbe calcolato comunque )
attualmente grazie all'implementazione di alcuni algoritmi tipo quello della distanza di Levenshtein, riescono a rilevare anche contenuti quasi-duplicati, quindi anche se cambi pezzi del testo, comunque rileverà la distanza tra il testo cambiato e quello originale e se tale distanza non è sufficientemente grande lo considererà duplicato
-
@paolino said:
no le pagine duplicate non vengono rimosse dall'indice ( a meno che oltre ad essere duplicate non abbiano altri problemi
)....si tratta semplicemente di filtrare i contenuti duplicati all'atto della costruzione della SERP
ovviamente per determinare chi è la vera fonte del contenuto è complesso...Live e Yahoo ci riescono meglio, Google un pò meno
riguardo il numero di confronti non è un problema....infatti Google calcola un hash e il confronto diventa pressochè banale e molto veloce ( l'hash infatti andrebbe calcolato comunque )
attualmente grazie all'implementazione di alcuni algoritmi tipo quello della distanza di Levenshtein, riescono a rilevare anche contenuti quasi-duplicati, quindi anche se cambi pezzi del testo, comunque rileverà la distanza tra il testo cambiato e quello originale e se tale distanza non è sufficientemente grande lo considererà duplicato
Non sono convintissimo però.
L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?
-
@gik25 said:
Non sono convintissimo però.
L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?
c'è un post a proposito del metodo usato da Google....cerca nel forum BigTable....
ad ogni modo è quello che fanno e con quasi mezzo milione di server possono permetterselo
riguardo la distanza di Levenshtein non è che usino proprio quella...in genere Google implementa propri algoritmi per qualsiasi cosa, quindi non è improbabile che abbiano un metodo di calcolo loro
poi l'hash viene calcolato su blocchi di testo non per singole parole....si tratta alpiù di calcolare 40-50 miliardi di hash