filtro antiduplicazione e turismo

umor

filtro antiduplicazione e turismo

Se un utente cerca "hotel roma" troviamo nelle prime posizione una serie di siti che presentano elenchi di alberghi.

Ora siccome gli alberghi son sempre quelli, quindi anche i testi delle pagine più o meno, perchè non si penalizzano a vicenda ma convivono ?

Per esempio venere presenta 10 alberghi nella pagina posizionata per "hotel roma". Expedia anche li 10 alberghi (di cui 5 uguali a quelli presentati da venere) ecc ecc..

In teoria G non dovrebbe selezionarne 1 soltanto ?

stuart

In accordo con il brevetto US 6,658,423 "Detecting Duplicate and near duplicate files" (Google), non è illogico che determinati risultati convivano in una serp.

(cfr http://www.cs.umd.edu/~pugh/google/ , dove è possibile trovare il collegamento al brevetto integrale, un riassunto -ben fatto- delle tecniche brevettate, e un esempio pratico)

Anche se forse l'attuale filtro antiduplicazione implementato nell'algoritmo di Google NON è quello brevettato, è plausibile aspettarsi un funzionamento simile.

Detto molto semplicemente, perchè ai fini del discorso non è necessario addentrarsi in formule matematiche, nel rilevamento di documenti uguali o troppo simili, i documenti presenti nell'indice vengono parsati e suddivisi in settori (fingerprints). Avviene inoltre una preelaborazione al fine di eliminare le parti uniche delle pagine (ad esempio gli header, e i footer, che non influiscono sulla rilevanza della pagina).

Due documenti vengono considerati uguali (duplicati) quando hanno tutti i fingerprints in comune.

La ricerca della near-duplication (vedi esagerata similitudine) tra documenti, il processo è pressochè identico, anche se possono essere aggiunti passaggi che valutino le differenze sostanziali tra documenti (ad es: un documento che INVERTE l'ordine di un paragrafo potrà comunque essere considerato troppo simile - order insensitive hash function)

Nel caso specifico, abbiamo siti che presentano gli stessi alberghi (Roma quella è..), ma descritti in maniera diversa, con impaginazione diversa, testi sostanzialmente diversi.
La percezione umana di questi risultati può portare al sospetto di una grande similarità tra risorse. Dal punto di vista del motore le pagine appaiono abbastanza diverse da non filtrarsi a vicenda.

Cordialmente,
Stuart

giorgiotave

Okey, ragioniamo come un motore di ricerca.

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?

Non mi sembra una soluzione valida quella di penalizzare i siti...

[url=http://www.google.it/search?hl=it&c2coff=1&q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&btnG=Cerca&meta=]Rimembri ancor ...

C'è un Hotel a Roma vicino al Colosseo con Piscina nato nel 1985. Si vuole promuovere e fornisce a tutti la stessa descrizione...

Quale portale devo eliminare dalle mie SERP? Perchè?

stuart

@Giorgiotave said:

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?
Ottima osservazione
Da non dimenticare che i celeberrimi 'filtri' agiscono prevalentemente su pagine dello stesso sito, in modo da frenare la pratica diffusa di produrre un gran numero di pagine con gli stessi contenuti (o molto simili) al fine di essere presenti con più kwd nelle serp.

In caso di siti diversi, tali filtri sono molto più tolleranti e possibilisti, proprio perchè in casi come quelli citati il rischio di un filtro troppo zelante avrebbe come conseguenza diretta delle serp semi.deserte.

Cordialmente,
Stuart

beke

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?
Infatti, ricordiamoci che il filtro antiduplicazione serve a migliorare le serp e non a peggiorarle.

Non penalizza e non banna nessuno, si limita, per una determinata key a non presentare i risultati che giudica così simili da rendere inutile il presentarli entrambi.

Con buona pace dell'autore del documento scartato (che però può essere benissimo presente in un'altra serp).

umor

"Due documenti vengono considerati uguali (duplicati) quando hanno tutti i fingerprints in comune."

Quant'è la percentuale di uguaglianza non ritenuta troppo simile ?

giorgiotave

@uMoR said:

Quant'è la percentuale di uguaglianza non ritenuta troppo simile ?

Tranne clamorosi ribaltoni....qui non credo che qualcuno conosca la risposta secca. L'unica sarebbe fare un test e ripeterlo più volte...

umor

Magari qualcuno ha fatto qualche test e mi risparmia la fatica

lowlevel

Non credo esista una percentuale fissa, che prescinda dalla ricerca.

Documento A: 10 paragrafi, di cui 7 sull'argomento X e 3 sull'argomento Y.

Documento B: 10 paragrafi, di cui 7 sull'argomento X e 3 sull'argomento Y.

I 7 paragrafi di A sull'argomento X sono identici ai rispettivi 7 paragrafi di B.

I 3 paragrafi di A sull'argomento Y sono invece estremamente diversi dai rispettivi 3 paragrafi di B.

Se si fa una ricerca sull'argomento X, i due documenti non propongono nulla di diverso all'utente.
Se si fa una ricerca sull'argomento Y, i due documenti invece propongono testo diverso all'utente.

Io non penso che bisogna semplicemente guardare quanto i testi di due documenti sono identici, ma anche che cosa rimane togliendo il testo identico. Se quello che rimane è sufficiente a giustificare una buona attinenza con la ricerca, ha poco senso penalizzare il documento.

Ovviamente il concetto di "argomento" è un po' troppo astratto per la maggior parte dei motori di ricerca. Nella vita reale magari i motori potrebbero limitarsi a controllare solo l'unicità delle frasi in cui i termini cercati (o inclusi dal motore a seguito di un'espansione) appaiono.

umor

Low ma il tuo tool sulla similarity è un'implementazione simile a quanto utilizzato dai motori di ricerca ?
Se si su che algoritmo si basa ?

Perchè ho visto varie tecniche per beccare pagine simili, da Jaccard alla cosine similarity al clustering a implementazioni molto più semplici (analisi sulla disposizione delle parole, analisi del vocabolario usato ecc ecc) però non ho idea di cosa implementino i motori

giorgiotave

Grazie Low per la risposta, mi servirà nel futuro

lowlevel

@uMoR said:

Low ma il tuo tool sulla similarity è un'implementazione simile a quanto utilizzato dai motori di ricerca ?

No, o almeno è estremamente improbabile che sfruttino algoritmi così semplici.

Mi sarebbe piaciuto implementare il cosine similarity, che ho usato altre volte per altri scopi, ma avrei rischiato di rendere il tool un po' lento.

ray71

@Giorgiotave said:

Okey, ragioniamo come un motore di ricerca.

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?

Non mi sembra una soluzione valida quella di penalizzare i siti...

[url=http://www.google.it/search?hl=it&c2coff=1&q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&btnG=Cerca&meta=]Rimembri ancor ...

In effetti, se guardi alla diversita' di risultati per questa query su Google e come invece Yahoo! dia dieci pagine quasi identiche, devi ammettere che Google ci fa la sua figura
Yahoo da svariate copie della stessa poesia, e almeno tre copie della versione "A Silvio" (di cui due pagine pressoche' identiche, con originale a fronte).
Google invece da: Un pdf della poesia pronto da stampare, una pagina con alcuni canti di Leopardi, la pagina di Beppe Grillo con la parodia A Silvio, una versione con traduzione a fronte in Inglese, un paio di articoli di letteratura su leopardi con note e commenti e infine addirittura una pagina con un mp3 per ascoltare la poesia.
Beh, direi che non ci sono pagine molto simili tra di loro...

giorgiotave

@Ray71 said:

In effetti, se guardi alla diversita' di risultati per questa query su Google e come invece Yahoo! dia dieci pagine quasi identiche, devi ammettere che Google ci fa la sua figura

Fanstastico!

Il migliore è [url=http://search.msn.it/results.aspx?q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&FORM=QBHP]MSN

Riescono a riprodurre una SERP che neanche un architetto sarebbe in grado di fare

atlapur11

Scusate l'ignoranza ma se cerco http://www.google.it/search?&q=prenotazioni+alberghiere
Trovo 2 volte Venere... non è duplicazione questa ?

tofa

Prima di tutto se gg presenta 2 fornitori (Venere ed Expedia) può accadere che abbiano qualche albergo in comune, ma questa non è duplicazione di contenuto perchè i modelli di business sono differenti (con Expedia paghi subito mentre con Venere al Checkout).

La vera duplicazione ci sarebbe se google presentasse i risultati di Venere e di un suo affiliato (con il suo track ref).

PEr Atlapur11 invece, non capisco cosa intendi. Non è certo colpa di Venere se Google posiziona il suo sito in quella posizione perchè i 2 risultati sono in lingua diversa e quindi per un target diverso..Ma ripeto, forse non intendevi questo.

atlapur11

Allora, le pagine in cache sono diverse (inglese venere.com italiano it.venere.com), ma quelle online sono identiche, entrambe in italiano
La datazione della cache è 18 gennaio cioè ieri, eppure io ieri ho visto la stessa situazione.di oggi .. le homepage di www.venere.com e it.venere.com uguali, la cache di venere.com diversa (in inglese)
A meno che non abbiano fatto un update del sito PROPRIO IERI la cosa non è strana ?