@gik25 said:
Non sono convintissimo però.
L'hash di "prova" e quello di "prove" è distantissimo secondo Levenshtein. Senza contare che su DB di grosse dimensioni io sapevo che è un casino utilizzare anche una distanza semplicissima come r = (a^2 + b^2)^(1/2).
Qui con migliaia di miliardi di confronti su vettori (angolo del vector model) o stringhe di 50 elementi come riesce a trovare i duplicati?
c'è un post a proposito del metodo usato da Google....cerca nel forum BigTable....
ad ogni modo è quello che fanno e con quasi mezzo milione di server possono permetterselo
riguardo la distanza di Levenshtein non è che usino proprio quella...in genere Google implementa propri algoritmi per qualsiasi cosa, quindi non è improbabile che abbiano un metodo di calcolo loro
poi l'hash viene calcolato su blocchi di testo non per singole parole....si tratta alpiù di calcolare 40-50 miliardi di hash