La nostra voce sarà immortale? Paradossi e vantaggi dell’Intelligenza Artificiale applicata ai suoni umani

23 Dicembre 2022
1070 Visualizzazioni

Guardare la serie tv Meglio di noi, produzione russa del 2018, oggi fa una certa impressione. Si svolge in una Mosca piena di droni e androidi disubbidienti. Ma ci insegna qualcosa sulla prospettive dell’intelligenza artificiale applicata alla voce.

In mezzo alle citazioni di Blade Runner e di altri film anni 90 un po’ scontati, sbucano alcuni dettagli sulla voce dei robot. E voi sapete che quando c’è una voce o un effetto audio digitale, per me è un richiamo.

La robot Arisa nella serie è a un passo dal sostituire l’uomo, emozioni incluse. Tuttavia le leggi di Asimov le vietano di nuocere all’uomo. E dunque utilizza alcune astuzie artificiali tra le quali fingersi altre persone clonando la loro voce per difendere la sua famiglia umana. Ecco qualcosa che sta succedendo davvero: l’Intelligenza Artificiale procede a passo svelto con il Voice Cloning, la clonazione della voce, risultato del Deep Learning.

L’intelligenza Artificiale ci regala voci sintetiche

Il livello di realismo delle voci sintetiche è elevato, ma per ottenere un voice clone molto somigliante serve un training anche di 100 ore. Immaginiamo le mille sfumature con le quali ogni giorno una parola è pronunciata da milioni di persone. l’Intelligenza Artificiale deve registrare e interpretare tutto, inclusi toni che conferiscono significati anche profondamente diversi a una stessa parola. Posso dire “bravo!” sia per elogiare una persona sia per criticarla con sarcasmo.

Ma la complessità aumenta se consideriamo la fisica e la matematica che guidano il processo di generazione della voce. Flusso, pressione, portata, cavità, risonanza e formanti creano modelli matematici di vibrazione e spostamento dell’aria. In fisica questo spostamento è detto “suono”, anche se tutti lo chiamiamo “voce”.

Affascinante, vero? Sì ma anche controverso.

I vantaggi

Le voci di sintesi non godono di buona fama, basta osservare i vostri bambini che interrogano gli assistenti vocali per il gusto di sfottere la loro pronuncia metallica e involuta. A questo problema il voice cloning può rispondere puntando su suoni naturali e amichevoli. Nei corsi di lingua questa sarebbe una rivoluzione apprezzata al punto da trasformarsi in engagement.

Pensate anche al vantaggio per gli attori o i cantanti. Per il loro lavoro oggi si parla di digital immortality. Una voce che sopravvive all’umano e lo trasforma da divo a Dio. Qualcosa di discutibile, accettabile forse se si limitasse a un audiolibro appena uscito e letto con la voce di Vittorio Gassman.

I rischi

La tecnologia è neutrale, ma l’uomo no e può piegarla a utilizzi pericolosi. Un hater o un creator in malafede assunto per una campagna elettorale, grazie al voice cloning potrà produrre fake news e false dichiarazioni degli avversari.

Come smascherare allora i cloni vocali? Molti ipotizzano che l’autenticazione biometrica basata sul voice-fingerprinting ovvero il riconoscimento dello speaker abbia molte falle e possa facilmente essere ingannata dal clone.

E, ancora una volta, la legge e le risposte ancora mancanti

Quanti contratti telefonici abbiamo registrato nella nostra vita rispondendo ai call center? Quelle conversazioni tra operatore e cliente sono soggette a truffe? Come la mettiamo con i diritti di riproduzione di una voce clonata? Potremo essere certi che la nostra voce campionata consensualmente non sarà utilizzata in contesti illegali come le conversazioni tra spacciatori?

Benvenuti nel duping, tra fantasmi vocali

In un mondo dove la tecnologia è di massa, udire una voce dubbia al cinema come in un call center sarà frequente. Umano o digitale? In chi ascolta nascerà un senso di smarrimento. Si tratta del duping, ovvero del dubbio di essere ingannato sull’autenticità di chi parla.

Una babele di voci fantasma che riempiono l’aria? Non credo. Tutte le volte che la tecnologia ha svelato lati pericolosi, l’umano è corso al riparo. O comunque ha imparato a vigilare. Accadrà anche questa volta.

Exit mobile version