Ecco una sintesi delle prime pagine
Il paper parte dalla considerazione che un feedback utente e' fondamentale nei social media. Prosegue evidenziando pero' che ad una crescita di popolarita' dei social media corrisponde un abbassamento della qualita' dei feedback, a causa di chi fa spam sfruttando i social media.
Il paper porta come esempio Yahoo Answers dove la rimozione dello spam e' semiautomatica e descrive quindi l'implementazione di un algoritmo su larga scala per arginare lo spam.
Il brevetto sfrutta una miscela di conoscenze e brevetti pregresse che partono dall'individuazione di click fraudolenti nei sistemi di advertising online per valutare la qualita' delle risorse.
Vengono valutati tre fattori:
elemento testuale : numero di token nella query, lunghezza del post, numero di voti ricevuti relazioni tra vari topic, risposte date dagli utenti, query.
interazione utente. Nel processo dei social media sono tre i ruoli: c'e' chi crea un post, chi vi risponde, e chi lo vota per cui gli strumenti dei social media sono in grado di identificare l'attivita' svolta nel social media da ciascun utente attraverso la quale stabilire l'expertise dell'utente e la conseguente "qualita'" del post.
infine il terzo elemento e' dato i voti espressi come giudizio dai singoli utenti che possono votare sia in positivo che in negativo un post.
Il paper va avanti descrivendo in particolare due tipi di voti: quelli non corretti perche' dati da utenti inesperti e quelli maliziosi dati per promuovere alcune risposte date per pubblicizzarsi.
Ma c'e' dell'altro: chi spamma potrebbe avere interesse non solo a promuovere la propria risposta, ma anche a disqualificare le altre risposte dando un voto negativo.
Il ranking di una community question answering come Yahoo! Answers viene calcolato con un algoritmo che si chiama GBrank che inizialmente non teneva conto dei voti spam.
La versione potenziata di questo algoritmo detta "GBrank-robust" invece tiene conto sia dei voti spam e apprende quali sono le preferenze e le abitudini degli utenti della community.
Per Yahoo Answers sono partiti con un esperimento valutando a mano una percentuale considerevole di thread inseriti e confrontando le valutazioni fatte con quelle fornite automaticamente dall'algoritmo e si sono accorti che su un campione di 100.000 domande circa l'81.2% non era rilevante contro
il restante 19.8% ma il dato piu' rilevante era che le valutazioni manuali e algoritmiche coincidevano nel 90% dei casi.