• Moderatore

    PEGASUS, il nuovo modello di Google per generare riassunti

    Google annuncia PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive Summarization), un nuovo modello per la creazione di estratti dai contenuti con prestazioni elevate a basso effort.

    Il lavoro del modello è stato valutato attraverso delle metriche (es. ROUGE score) per stabilirne il rendimento in base alla mole di training. Ma anche da persone, in grado di coglierne la qualità.
    Sono stati confrontati riassunti prodotti dal modello e da umani, senza conoscere l'autore a priori.. NON SEMPRE È STATO PREFERITO QUELLO REALIZZATO DALLA PERSONA!

    Parliamo di algoritmi non semplicemente "estrattivi", ma che sono in grado di astrarre e parafrasare.

    Ma c'è di più.. Le prestazioni ottenute, vicine a quelle umane, derivano da un training del modello fatto con una bassa quantità di esempi. Questo è traducibile in costi ridotti.

    Quello che segue è il link al post di Google, il quale è molto tecnico. Ma consiglio di guardare gli esempi di summarization che sono alla fine. Credo sia sbalorditiva la capacità di rielaborazione
    Link al post: https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html


  • Community Manager

    Oramai ci siamo: Google si genererà i contenuti a partire dai tanti siti web. Questo apre la quetione del copyright secondo me.

    Come è possibile tutelare l'ideatore del contenuto?


  • Moderatore

    Ottimi spunti come sempre Giorgio!

    Di certo questa tecnologia la vedremo in azione nelle SERP delle proprietà di Google, per quanto riguarda featured snippet, snippet, ecc., perché riuscirà a sintetizzare in maniera migliore, non solo estraendo, ma anche rielaborando, andando ad ampliare la capacità di interpretazione delle query.
    Sicuramente Google Assistant sarà uno degli attori protagonisti di questa evoluzione.

    Per quanto riguarda la creazione di contenuti dalle pagine di più siti, spero che venga mantenuta la linea dell'aggregazione dei contenuti per la generazione dei knowledge panel, ad esempio per i valori nutrizionali. In quel caso Google cita "Le fonti comprendono: USDA", e linka il dipartimento US che si occupa di questo.
    Oppure per le query relative ai dati demografici, in cui cita "Le fonti comprendono: Eurostat", e linka la Commissione Europea, o "Le fonti comprendono:Ufficio del censimento degli Stati Uniti d'America, Eurostat", ecc..

    Tu/voi, cosa ne pensi/pensate?


  • Community Manager

    Io ho paura della non-trasparenza: perché poi, dopo un certo punto, Google potrà fare ciò che vuole. Ho paura della non-tutela. Se ci pensi, un modello del genere, potrebbe sostituire le news dei giornali. Immagina Google News...

    Tu dirai: ma no, non lo farà mai. Eh...chissà chi arriverà domani al comando di Google 🙂