filtro antiduplicazione e turismo

stuart

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?
Ottima osservazione
Da non dimenticare che i celeberrimi 'filtri' agiscono prevalentemente su pagine dello stesso sito, in modo da frenare la pratica diffusa di produrre un gran numero di pagine con gli stessi contenuti (o molto simili) al fine di essere presenti con più kwd nelle serp.

In caso di siti diversi, tali filtri sono molto più tolleranti e possibilisti, proprio perchè in casi come quelli citati il rischio di un filtro troppo zelante avrebbe come conseguenza diretta delle serp semi.deserte.

Cordialmente,
Stuart

beke

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?
Infatti, ricordiamoci che il filtro antiduplicazione serve a migliorare le serp e non a peggiorarle.

Non penalizza e non banna nessuno, si limita, per una determinata key a non presentare i risultati che giudica così simili da rendere inutile il presentarli entrambi.

Con buona pace dell'autore del documento scartato (che però può essere benissimo presente in un'altra serp).

umor

"Due documenti vengono considerati uguali (duplicati) quando hanno tutti i fingerprints in comune."

Quant'è la percentuale di uguaglianza non ritenuta troppo simile ?

giorgiotave

@uMoR said:

Quant'è la percentuale di uguaglianza non ritenuta troppo simile ?

Tranne clamorosi ribaltoni....qui non credo che qualcuno conosca la risposta secca. L'unica sarebbe fare un test e ripeterlo più volte...

umor

Magari qualcuno ha fatto qualche test e mi risparmia la fatica

lowlevel

Non credo esista una percentuale fissa, che prescinda dalla ricerca.

Documento A: 10 paragrafi, di cui 7 sull'argomento X e 3 sull'argomento Y.

Documento B: 10 paragrafi, di cui 7 sull'argomento X e 3 sull'argomento Y.

I 7 paragrafi di A sull'argomento X sono identici ai rispettivi 7 paragrafi di B.

I 3 paragrafi di A sull'argomento Y sono invece estremamente diversi dai rispettivi 3 paragrafi di B.

Se si fa una ricerca sull'argomento X, i due documenti non propongono nulla di diverso all'utente.
Se si fa una ricerca sull'argomento Y, i due documenti invece propongono testo diverso all'utente.

Io non penso che bisogna semplicemente guardare quanto i testi di due documenti sono identici, ma anche che cosa rimane togliendo il testo identico. Se quello che rimane è sufficiente a giustificare una buona attinenza con la ricerca, ha poco senso penalizzare il documento.

Ovviamente il concetto di "argomento" è un po' troppo astratto per la maggior parte dei motori di ricerca. Nella vita reale magari i motori potrebbero limitarsi a controllare solo l'unicità delle frasi in cui i termini cercati (o inclusi dal motore a seguito di un'espansione) appaiono.

umor

Low ma il tuo tool sulla similarity è un'implementazione simile a quanto utilizzato dai motori di ricerca ?
Se si su che algoritmo si basa ?

Perchè ho visto varie tecniche per beccare pagine simili, da Jaccard alla cosine similarity al clustering a implementazioni molto più semplici (analisi sulla disposizione delle parole, analisi del vocabolario usato ecc ecc) però non ho idea di cosa implementino i motori

giorgiotave

Grazie Low per la risposta, mi servirà nel futuro

lowlevel

@uMoR said:

Low ma il tuo tool sulla similarity è un'implementazione simile a quanto utilizzato dai motori di ricerca ?

No, o almeno è estremamente improbabile che sfruttino algoritmi così semplici.

Mi sarebbe piaciuto implementare il cosine similarity, che ho usato altre volte per altri scopi, ma avrei rischiato di rendere il tool un po' lento.

ray71

@Giorgiotave said:

Okey, ragioniamo come un motore di ricerca.

Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?

Non mi sembra una soluzione valida quella di penalizzare i siti...

[url=http://www.google.it/search?hl=it&c2coff=1&q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&btnG=Cerca&meta=]Rimembri ancor ...

In effetti, se guardi alla diversita' di risultati per questa query su Google e come invece Yahoo! dia dieci pagine quasi identiche, devi ammettere che Google ci fa la sua figura
Yahoo da svariate copie della stessa poesia, e almeno tre copie della versione "A Silvio" (di cui due pagine pressoche' identiche, con originale a fronte).
Google invece da: Un pdf della poesia pronto da stampare, una pagina con alcuni canti di Leopardi, la pagina di Beppe Grillo con la parodia A Silvio, una versione con traduzione a fronte in Inglese, un paio di articoli di letteratura su leopardi con note e commenti e infine addirittura una pagina con un mp3 per ascoltare la poesia.
Beh, direi che non ci sono pagine molto simili tra di loro...

giorgiotave

@Ray71 said:

In effetti, se guardi alla diversita' di risultati per questa query su Google e come invece Yahoo! dia dieci pagine quasi identiche, devi ammettere che Google ci fa la sua figura

Fanstastico!

Il migliore è [url=http://search.msn.it/results.aspx?q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&FORM=QBHP]MSN

Riescono a riprodurre una SERP che neanche un architetto sarebbe in grado di fare

atlapur11

Scusate l'ignoranza ma se cerco http://www.google.it/search?&q=prenotazioni+alberghiere
Trovo 2 volte Venere... non è duplicazione questa ?

tofa

Prima di tutto se gg presenta 2 fornitori (Venere ed Expedia) può accadere che abbiano qualche albergo in comune, ma questa non è duplicazione di contenuto perchè i modelli di business sono differenti (con Expedia paghi subito mentre con Venere al Checkout).

La vera duplicazione ci sarebbe se google presentasse i risultati di Venere e di un suo affiliato (con il suo track ref).

PEr Atlapur11 invece, non capisco cosa intendi. Non è certo colpa di Venere se Google posiziona il suo sito in quella posizione perchè i 2 risultati sono in lingua diversa e quindi per un target diverso..Ma ripeto, forse non intendevi questo.

atlapur11

Allora, le pagine in cache sono diverse (inglese venere.com italiano it.venere.com), ma quelle online sono identiche, entrambe in italiano
La datazione della cache è 18 gennaio cioè ieri, eppure io ieri ho visto la stessa situazione.di oggi .. le homepage di www.venere.com e it.venere.com uguali, la cache di venere.com diversa (in inglese)
A meno che non abbiano fatto un update del sito PROPRIO IERI la cosa non è strana ?