• User Attivo

    Magari qualcuno ha fatto qualche test e mi risparmia la fatica :fumato:


  • Super User

    Non credo esista una percentuale fissa, che prescinda dalla ricerca.

    Documento A: 10 paragrafi, di cui 7 sull'argomento X e 3 sull'argomento Y.

    Documento B: 10 paragrafi, di cui 7 sull'argomento X e 3 sull'argomento Y.

    I 7 paragrafi di A sull'argomento X sono identici ai rispettivi 7 paragrafi di B.

    I 3 paragrafi di A sull'argomento Y sono invece estremamente diversi dai rispettivi 3 paragrafi di B.

    Se si fa una ricerca sull'argomento X, i due documenti non propongono nulla di diverso all'utente.
    Se si fa una ricerca sull'argomento Y, i due documenti invece propongono testo diverso all'utente.

    Io non penso che bisogna semplicemente guardare quanto i testi di due documenti sono identici, ma anche che cosa rimane togliendo il testo identico. Se quello che rimane è sufficiente a giustificare una buona attinenza con la ricerca, ha poco senso penalizzare il documento.

    Ovviamente il concetto di "argomento" è un po' troppo astratto per la maggior parte dei motori di ricerca. Nella vita reale magari i motori potrebbero limitarsi a controllare solo l'unicità delle frasi in cui i termini cercati (o inclusi dal motore a seguito di un'espansione) appaiono.


  • User Attivo

    Low ma il tuo tool sulla similarity è un'implementazione simile a quanto utilizzato dai motori di ricerca ?
    Se si su che algoritmo si basa ?

    Perchè ho visto varie tecniche per beccare pagine simili, da Jaccard alla cosine similarity al clustering a implementazioni molto più semplici (analisi sulla disposizione delle parole, analisi del vocabolario usato ecc ecc) però non ho idea di cosa implementino i motori 😛


  • Community Manager

    Grazie Low per la risposta, mi servirà nel futuro 🙂

    :ciauz:


  • Super User

    @uMoR said:

    Low ma il tuo tool sulla similarity è un'implementazione simile a quanto utilizzato dai motori di ricerca ?

    No, o almeno è estremamente improbabile che sfruttino algoritmi così semplici.

    Mi sarebbe piaciuto implementare il cosine similarity, che ho usato altre volte per altri scopi, ma avrei rischiato di rendere il tool un po' lento.


  • User

    @Giorgiotave said:

    Okey, ragioniamo come un motore di ricerca.

    Ho un motore di ricerca, devo listare la poesia di Giacomo Leopardi...."A Silvia" che faccio mostro solo un sito con la poesia?

    Non mi sembra una soluzione valida quella di penalizzare i siti...

    [url=http://www.google.it/search?hl=it&c2coff=1&q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&btnG=Cerca&meta=]Rimembri ancor ...

    In effetti, se guardi alla diversita' di risultati per questa query su Google e come invece Yahoo! dia dieci pagine quasi identiche, devi ammettere che Google ci fa la sua figura 😉
    Yahoo da svariate copie della stessa poesia, e almeno tre copie della versione "A Silvio" (di cui due pagine pressoche' identiche, con originale a fronte).
    Google invece da: Un pdf della poesia pronto da stampare, una pagina con alcuni canti di Leopardi, la pagina di Beppe Grillo con la parodia A Silvio, una versione con traduzione a fronte in Inglese, un paio di articoli di letteratura su leopardi con note e commenti e infine addirittura una pagina con un mp3 per ascoltare la poesia.
    Beh, direi che non ci sono pagine molto simili tra di loro...


  • Community Manager

    @Ray71 said:

    In effetti, se guardi alla diversita' di risultati per questa query su Google e come invece Yahoo! dia dieci pagine quasi identiche, devi ammettere che Google ci fa la sua figura 😉

    Fanstastico!

    Il migliore è [url=http://search.msn.it/results.aspx?q=rimembri+ancora+quel+tempo+della+tua+vita+mortale&FORM=QBHP]MSN

    Riescono a riprodurre una SERP che neanche un architetto sarebbe in grado di fare 😄


  • User

    Scusate l'ignoranza ma se cerco http://www.google.it/search?&q=prenotazioni+alberghiere
    Trovo 2 volte Venere... non è duplicazione questa ?


  • User Newbie

    Prima di tutto se gg presenta 2 fornitori (Venere ed Expedia) può accadere che abbiano qualche albergo in comune, ma questa non è duplicazione di contenuto perchè i modelli di business sono differenti (con Expedia paghi subito mentre con Venere al Checkout).

    La vera duplicazione ci sarebbe se google presentasse i risultati di Venere e di un suo affiliato (con il suo track ref).

    PEr Atlapur11 invece, non capisco cosa intendi. Non è certo colpa di Venere se Google posiziona il suo sito in quella posizione perchè i 2 risultati sono in lingua diversa e quindi per un target diverso..Ma ripeto, forse non intendevi questo.


  • User

    Allora, le pagine in cache sono diverse (inglese venere.com italiano it.venere.com), ma quelle online sono identiche, entrambe in italiano
    La datazione della cache è 18 gennaio cioè ieri, eppure io ieri ho visto la stessa situazione.di oggi .. le homepage di www.venere.com e it.venere.com uguali, la cache di venere.com diversa (in inglese)
    A meno che non abbiano fatto un update del sito PROPRIO IERI la cosa non è strana ? :mmm: