Sito web ed assistente vocale: una collaborazione vincente! Esempio pratico.

alepom

.. è possibile migliorare la voce? A volte il tono è veramente osceno.

Ciao Michele,

Actions on Google, in italiano, permette di scegliere tra la voce maschile e quella femmine. Per capirci, quella maschile è quella di Akinator, mentre quella femminile è quella che senti su Giallo Zafferano

Per rendere la sintesi più umana, Google e anche Amazon permettono di utilizzare la sintassi SSML (Speech Synthesis Markup Language). Grazie a questo markup, puoi, ad esempio, inserire pause, accelerare o rallentare il parlato, cambiare il tono di voce tra una frase e l'altra, inserire dei file audio (ad esempio per jingle o la simulazione della respirazione), leggere un acronimo, e molto altro.

È chiaro che, se viene tutto automatizzato e i testi che vengono letti non sono creati ad hoc, ci si deve accontentare. L'assistente vocale è un canale, e quindi, come tutti gli altri canali, necessita di contenuti fatti per esaltarne le caratteristiche.
Quindi bellissimo, ad esempio, che Google permetta di creare l'action in automatico dai contenuti del sito, ma com'è la UX che ne deriva?

Tornando alle voci, al di fuori dagli ambienti di action e skill, nel cloud di Google c'è una sola voce italiana di tipo "WaveNet" (le voci più evolute). Nelle nostre applicazioni usiamo un'interfaccia che permette di scegliere il TTS di Google, di Amazon o di alte piattaforme in base ai parametri di configurazione.

giorgiotave

Chissà che un giorno non permettano di arrivare ad una personalizzazione della voce. Magari loro vorrebbero che la voce restasse sempre più o meno quella, però chissà come sarebbe un Assistant con "voci conosciute" o addirittura la possibilità di creare la propria.

alepom

@Giorgiotave said:

Chissà che un giorno non permettano di arrivare ad una personalizzazione della voce. Magari loro vorrebbero che la voce restasse sempre più o meno quella, però chissà come sarebbe un Assistant con "voci conosciute" o addirittura la possibilità di creare la propria.

Tocchi un punto molto, molto interessante, Giorgio.
Per quanto riguarda la personalizzazione della voce, rimanendo in ambito Google Assistant, Alexa, Siri, ecc., credo che la personalizzazione della voce sia molto complessa.. non tecnicamente ma per per due motivi (che io condivido):

ci dovrebbe essere un interfacciamento via API con un TTS (Text To Speech) esterno all'ecosistema del loro cloud;
anche superando il punto precedente, sarebbe difficile (o forse impossibile) garantire uno standard di qualità.

Tuttavia, nel caso in cui un brand abbia già la sua voce di riconoscimento, o comunque voglia averne una, ci sono dei metodi per accogliere l'esigenza. Ad esempio, creando un set molto ampio di registrazioni audio per la fase di interazione iniziale con gli utenti, per poi lasciare la parte estremamente dinamica alla voce "standard".
Con questa tecnica, la fase iniziale permette al brand di dare all'utente gli elementi di "identity", per poi lasciare spazio alle informazioni che gli servono.

E questo per quanto riguarda le applicazioni vocali richiamabili attraverso gli assistenti vocali (quindi Actions on Google e Skills).

Ma questo limite decade nel caso in cui creiamo il nostro assistente vocale, ad esempio nel sito web, nell'app mobile o su altri software.
In questo scenario, possiamo utilizzare qualunque componente per fare da TTS, anche uno con voce personalizzata.
La possibilità di creare una voce custom esiste ed avviene attraverso la registrazione di "particolari" e numerosissime frasi da dare input ad algoritmi molto complessi; lo scopo è quello di generare delle funzioni matematiche in grado di riprodurre fedelmente le caratteristiche della voce di partenza.
E' chiaro che per realizzare una voce di qualità (simile o anche superiore alle WaveNet di Google), l'effort è molto elevato, sia in termini di costi, sia in termini di tempo. Inoltre conta tantissimo la qualità di registrazione.

Qualche temo fa, abbiamo fatto dei test con la mia voce. Devo dire che, anche usando pochi campioni, le caratteristiche della voce si iniziano a sentire. Ma sappiamo benissimo che più l'asticella si alza, e più ottimizzare quelli che apparentemente sono dettagli diventa difficile. E per una voce che deve "simulare" l'interazione umana le aspettative sono sempre alte.

Rimanendo sul tema voci, io mi immagino anche uno scenario in cui la voce che assiste le persone cambia a seconda del segmento di appartenenza ed alla tematica, il tutto derivante da test ed analisi dei dati.

giorgiotave

Quindi se ho capito bene, il primo passo secondo te, potrebbe essere avere una voce che sia più geograficamente riconoscibile?

Cosa intendi per segmento di appartenenza? Questo?

alepom

@Giorgiotave said:

avere una voce che sia più geograficamente riconoscibile?

Non ho capito cosa intendi.

@Giorgiotave said:

Cosa intendi per segmento di appartenenza? Questo?

Forse manca un link o un contenuto multimendiale.
Comunque per segmento, intendo un cluster di utenti, una tipologia di persona.

Faccio un esempio schifosamente banale per farmi capire:

se in un e-commerce di scarpe atterra una ragazza che vuole una scarpa da sera, probabilmente è più a suo agio con un'assistente di tipo "donna giovane";
se nello stesso e-commerce atterra un uomo e vuole un paio di scarpe eleganti, probabilmente è più a suo agio con un assistente di tipo "maschio di mezza età";
su un e-commerce che vende materiale da ferramenta, probabilmente, sia un utente donna, sia un utente uomo, preferiranno un assistente di tipo "maschio di mezza età".

Sono solo esempi, mi raccomando, non diamo peso a queste casistiche e ai tipi di assistente, sono puramente inventati.

Come per gli elementi visuali, si possono fare test A/B e determinare come varia il conversion rate o come variano altre metriche in base alla voce.

giorgiotave

Ah io pensavo a qualcosa di diverso scusa. Pensavo all'Italiano, pensavo alle regioni

Pensavo ad un Google Assistant in Veneto e uno in Calabrese

alepom

Visto che era emersa la questione "voci", integro il topic con alcune novità.

Google Cloud, infatti, si arricchisce di tre voci italiane WaveNet.
Finalmente sono disponibili 2 voci femminili e 2 voci maschili.

La qualità delle voci e del riconoscimento del parlato sta raggiungendo livelli incredibili.

Cos'è WavNet
WaveNet è lo stesso modello sul quale si basano le voci di Google Assistant, Translate e Search ed è tra i più avanzati al mondo.
Per creare le voci non vengono fatte registrazioni: l'IA crea le onde sonore basandosi sui modelli ricavati durante l'addestramento.
Infatti le nuove voci sono più human-like di quelle che eravamo abituati a sentire, ma se ascoltate le voci americane sono impressionanti.

Come ascoltare dei sample: https://cloud.google.com/text-to-speech/docs/voices

giorgiotave

Spettacolo, quanto sono belli i forum. Guarda come c'è traccia di tutto

Per chi vuole approfondire sono uno spettacolo!

alepom

Ripartendo dal post iniziale,

GialloZafferano mette sempre più in evidenza l'integrazione con Google Assistant!

L'utente può atterrare nel sito web da una ricerca organica e passare alla guida vocale (e visuale) da parte dell'assistente con un tap.
Ma ora l'hanno reso ancora più visibile e più riconoscibile per chi è abituato ad utilizzare Google Assistant.

La loro integrazione con la Voice Search è tra le più complete, grazie a:

► un'action ben fatta con contenuti ad hoc,
► dati strutturati che consentono di trasformare il contenuto in un'action direttamente dalla serp su smart display,
► link dalle pagine delle ricette verso l'assistente.

alepom

Riprendo la discussione per segnalare un post che abbiamo scritto con GialloZaferano, e che parla dell'utilizzo delle applicazioni vocali durante la pandemia.

Ci sono dati e riflessioni interessanti.

Il post si intitola "L’assistente vocale in cucina: come sono cambiate le abitudini di utilizzo durante la pandemia", ed eccolo a voi: https://bit.ly/voice-technology-pandemia