È disponibile subito il podcast di oggi de Il Disinformatico della
Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate presso
www.rsi.ch/ildisinformatico
(link diretto) e qui sotto.
Le puntate del Disinformatico sono ascoltabili anche tramite
feed RSS,
iTunes,
Google Podcasts
e
Spotify.
Buon ascolto, e se vi interessano il testo di accompagnamento e i link alle fonti di questa puntata, sono qui sotto.
---
[CLIP: Yoda: “Cominciata la guerra dei cloni è” da “Star
Wars - L’Attacco dei Cloni”]
Non è la prima volta che questo
podcast si occupa di voci clonate. Ad aprile scorso avevo raccontato
la vicenda
del brano Heart on My Sleeve, creato con le voci sintetiche di
Drake e The Weeknd, e gli esempi di clonazione di voci di personaggi
famosi, usati per le truffe, ormai non si contano, come nel caso
recente del falso
video di Elon Musk che sembra promuovere una truffa basata sulle
criptovalute. Ma sono quasi sempre voci in inglese, e soprattutto
sono le voci degli altri.
Che cosa succede, e come ci si sente,
quando la voce clonata è invece in italiano, e non è quella di
qualcun altro ma è la propria, e la si ascolta mentre pronuncia
perfettamente parole mai dette? E quali sono le implicazioni sociali
e di sicurezza di questa tecnologia, che oggi produce risultati
praticamente indistiguibili dall’originale?
Questa
è la storia di come ho
clonato la mia voce, usando un servizio commerciale aperto a
chiunque, e di come oggi dobbiamo imparare a non fidarci più non
solo dei nostri occhi con i deepfake,
ma anche delle nostre orecchie.
Benvenuti
alla
puntata del 4
agosto 2023 del
Disinformatico, il
podcast della Radiotelevisione Svizzera dedicato alle notizie
e alle storie strane
dell’informatica. Io sono Paolo Attivissimo. O
forse sono il suo clone. Ascoltate attentamente, e provate a vedere
se riuscite a capire quando sto parlando realmente io e quando invece
affido questo podcast al mio clone.
[SIGLA di apertura]
Parto subito con una premessa importante: clonare bene la voce di
qualcuno non è facile, come molti pensano. Certo, ci sono numerosi
software e servizi online facilmente accessibili, ai quali si può
affidare una breve registrazione della voce di qualcuno, senza alcun
controllo di identità, e ottenerne in pochi minuti un clone
abbastanza somigliante al quale far dire qualunque cosa, come ha
fatto recentemente
il programma Falò della Radiotelevisione Svizzera, clonando
voce e immagine del conduttore Michele Galfetti.
[CLIP: Audio di Galfetti clonato]
Ma c’è comunque qualcosa di robotico
e piatto nei cloni fatti in questo modo. Sono sufficienti a ingannare
un ascoltatore distratto, permettono di fare qualche burla su TikTok
e consentono anche di creare truffe come quella che sfrutta la voce
di Elon Musk, citata prima, o quella, molto in voga in questo periodo, della falsa
telefonata di un familiare che chiede urgentemente soldi per tirarsi
fuori da un guaio. Ma ascoltando con attenzione queste voci ci si
accorge che sono in qualche modo artificiali.
Per ottenere un clone vocale credibile,
come quello che state ascoltando qua e là in questo podcast in
alternanza con la mia voce reale, serve molto di più: servono soldi,
tempo, e tanti campioni di voce puliti, che non sono facili da
ottenere. E poi ci sono controlli di sicurezza difficili da superare.
I soldi servono per acquistare un
account professionale su una delle tante piattaforme di clonazione
vocale, come Resemble o
Speechify o Elevenlabs,
che è quella che ho usato per questo esperimento. Per poter clonare
bene una singola voce bisogna spendere una ventina di dollari al
mese; per clonarne di più i prezzi salgono molto in fretta.
Poi servono i campioni della voce da
clonare, e ne servono tanti e di ottima qualità. Non basta piazzare
un microfono vicino a qualcuno per qualche minuto per rubargli la
voce. Servono almeno trenta minuti di audio molto pulito, senza
rumori di fondo, per ottenere risultati accettabili, e le voci
migliori richiedono tre ore di campioni. Procurarsi così tante
registrazioni pulite non è facile, a meno che si tratti della voce
di qualcuno che parla spesso in pubblico, davanti a un buon microfono,
come appunto un conduttore radiofonico o un podcaster.
E anche così, ci sono delle
limitazioni: la voce clonata avrà infatti lo stesso tono che hanno
le registrazioni usate per crearla. Se i campioni provengono da
discorsi in pubblico, avranno il tono di chi parla ad alta voce a
degli ascoltatori; se provengono da una conversazione privata,
avranno un tono più sommesso e intimo, e non ci sarà modo di
cambiarlo. Io ho usato le registrazioni della mia voce fatte per le
puntate precedenti di questo podcast, per cui il tono risultante è
quello ottimale per produrre un clone da podcast, ma non potrei usare
questa voce sintetica per, che so, recitare una poesia.
Gli ostacoli non sono finiti. Bisogna
anche armarsi di pazienza, perché una volta inviati i campioni al
servizio di clonazione, bisogna aspettare che vengano elaborati, e
questo può richiedere anche giorni o settimane. Nel mio caso è
passato quasi un mese. E nell’attesa si continua a pagare.
Resta un ultimo ostacolo: dopo aver
inviato al servizio i campioni della voce, bisogna anche che quella
stessa voce legga in tempo reale una frase generata a caso dal
servizio nella lingua scelta. Questa è una misura di sicurezza molto
importante, per evitare gli abusi facilmente immaginabili: in pratica
questo controllo impedisce di clonare la voce di qualcun altro senza
il suo permesso e impersonarlo, perché la persona da clonare deve
essere presente in carne e ossa per pronunciare la frase di
sicurezza.
E a proposito di abusi, bisogna tenere
presente che quando si usa un servizio di clonazione vocale online si
affida ai gestori di quel servizio tutto il necessario per clonare la
propria voce all’infinito. È un potere che non va dato alla
leggera, soprattutto se il servizio appartiene a un social network il
cui modello commerciale è proprio acquisire tutti i dati possibili
sui propri utenti.
Una volta fatto tutto questo, non resta
che aspettare.
Il clone apprendista e l’attore disoccupato
Quando finalmente arriva la voce clonata, bisogna imparare a
impostarla e a farla parlare in modo naturale. E qui emerge un
aspetto leggermente inquietante di questi servizi: alcuni, come
appunto Elevenlabs, spiegano
che hanno notato che la voce sintetica diventa più emotiva se invece
di darle semplicemente il testo da leggere, così com’è, le si
prepara una premessa che descriva il tono da usare, come se si
trattasse dei dialoghi di un libro.
Se la premessa dice cose come "Paolo parla con voce
emozionata e confusa", l’intelligenza artificiale del
software di sintesi vocale usa questi suggerimenti per plasmare il
tono della voce generata. Ma neanche i gestori di questi servizi
sanno di preciso come funzioni tutto questo e lo ammettono
abbastanza candidamente, precisando che ci sono trucchi che sembrano
funzionare, ma non sempre, a discrezione dell’intelligenza
artificiale. E se si genera ripetutamente lo stesso testo, si
ottengono risultati differenti ogni volta. Altri servizi usano un
approccio più manuale, nel quale si possono muovere dei cursori e
inserire dei comandi nel testo per dare istruzioni sull’enfasi da
dare alle varie parole.
[L’intonazione e le pause di tutte le parti pronunciate dalla mia voce clonata sono state scelte automaticamente dal software; io mi sono limitato a dare a Elevenlabs il testo che state leggendo, precedendolo con una breve premessa di descrizione emotiva]
Poi c’è il problema della pronuncia delle sigle e dei nomi
propri: cose che una speaker professionista leggerebbe correttamente
senza batter ciglio, come per esempio “www” in un indirizzo Web,
vanno scritte foneticamente, altrimenti si otterranno risultati
imbarazzanti. A volte bisogna addirittura ricorrere all’alfabeto
fonetico internazionale, quello con i simboli strani che vedete
spesso nei vocabolari, e comporre le parole lettera dopo lettera,
provando e riprovando fino a ottenere la pronuncia corretta. Con uno
di questi software di sintesi vocale ho speso qualche ora solo per
insegnargli a pronunciare correttamente la singola parola webinar,
che si ostinava a pronunciare webìnar
o webinàr.
Insomma, ottenere un buon risultato non è una passeggiata, e
chiunque pensi che questi servizi possano sostituire in fretta e con
poca spesa uno speaker professionista, o peggio ancora un doppiatore, rischia di rendersi conto ben presto che senza una persona esperta
che le addomestichi, queste voci sintetiche danno risultati mediocri,
e quindi si finisce per pagare comunque qualcuno, ossia il tecnico
che sa come comandare la voce. Se la voce in questione non appartiene
a qualche strapagata e irreperibile celebrità, il risparmio di tempo
e di denaro rischia di essere modesto.
C’è da dire, però, che se si riesce a superare tutta questa
serie di limitazioni l’effetto di sentire la propria voce che dice
cose mai dette è per molti sconcertante, perché la voce sintetica
professionale ha davvero la
stessa timbrica, le stesse cadenze, le stesse pause e intonazioni di
quella originale. Clonando la
mia voce ho
provato
la
sensazione inaspettatamente viscerale e
profonda di aver perso il
controllo di qualcosa di profondamente mio, una sorta di violazione
digitale, un distacco dalla
realtà. Una
realtà sempre più fragile,
perché ora non possiamo più
accettare come prova una registrazione della voce di qualcuno, se
quella registrazione non ha una fonte attendibile, preferibilmente
multipla, e indipendente. Le
persone accusate di aver detto cose incriminanti potranno negare di
averle dette e affermare che le registrazioni che le inchiodano sono
false. O almeno insinuare facilmente il dubbio che lo siano.
Queste sensazioni hanno reso molto chiaro anche il problema
attualissimo alla base dello sciopero degli attori a Hollywood: le
grandi case di produzione spingono affinché attori e attrici firmino
contratti in base ai quali le loro voci possano essere digitalizzate
una sola volta, pagate una sola volta e poi riutilizzate
all’infinito, con ovvie conseguenze per la sussistenza dei
proprietari di quelle voci.
Alcuni hanno già accettato, come James Earl Jones, la
straordinaria voce originale di Darth Vader nella saga di Star
Wars. Per
sopraggiunti limiti di età, l’attore novantaduenne ha già
ceduto da tempo alla Disney i diritti sulla propria voce, che viene
ora clonata
da Respeecher per le più recenti serie
della saga. Anche Hollywood viene rivoluzionata dall’arrivo
dell’intelligenza artificiale.
Nuove libertà di tempo e di lingua
Una volta superato lo sconcerto iniziale, comunque, ci si rende
conto in fretta che questi servizi di clonazione vocale, se ben
regolamentati, offrono opportunità positive straordinarie.
Per esempio, una persona che per malattia perdesse la propria voce
potrebbe riprendere a parlare con quella voce attraverso un apparato
di sintesi vocale, invece di avere una voce robotica e impersonale.
Oppure si potrebbe recuperare la voce di chi non c’è più:
immaginate, giusto per dire, le poesie di Ungaretti lette dalla voce
di Ungaretti stesso, o le avventure di Maigret lette da Simenon. Un
attore che deve dare una voce molto particolare a un personaggio
rischia di rovinarsi le corde vocali [pensate a Andy Serkis con Gollum] se lo fa a lungo; la cosiddetta
clonazione speech-to-speech gli permette invece di registrare
solo un campione della voce speciale e poi recitare con la sua voce
normale. Lo stesso vale per un’attrice che deve adottare un accento
particolare: può recitare normalmente, senza che lo sforzo di
mantenere l’accento interferisca con la sua capacità recitativa e
senza rischiare il ridicolo; ci penserà il software a darle
l’accento perfetto.
[Un altro esempio di applicazione è sottinteso nello spezzone di audio iniziale del podcast: la voce doppiata di Yoda ne L’attacco dei Cloni è diversissima da quella che ha nella trilogia originale, perché è cambiato il doppiatore, come capita spesso nel doppiaggio, per cui gli attori e i personaggi non hanno sempre la stessa voce, con un effetto molto fastidioso. La clonazione speech-to-speech risolverebbe il problema]
Ci sono ovviamente complicate questioni legali da risolvere e
regole da ripensare e riscrivere in tutto questo, ma le prospettive
di superare le barriere del tempo e della malattia sono affascinanti.
Un’altra sorpresa del mio piccolo esperimento di clonazione
vocale è che il software è in grado di usare i campioni della mia
voce in una lingua, nel mio caso l’italiano, per generare del
parlato in altre lingue. Per esempio, questo sono io che do il
benvenuto a questo podcast in francese, tedesco, spagnolo, polacco,
portoghese e hindi, tutte lingue nelle quali è meglio che io non mi
cimenti dal vero.
[CLIP: campioni di voce multilingue generata di Paolo]
Tutte queste novità e possibilità possono disorientare e
preoccupare, ma se vengono affrontate con prontezza e senza
pregiudizi, regolamentandole per tempo, possono essere l’inizio di
nuove forme di lavoro e di creatività. E come noi consideriamo
assolutamente normale sentire la voce incorporea di una persona
lontana attraverso il telefonino, probabilmente chi nasce oggi
troverà altrettanto normale parlare con un clone vocale dei propri
amici e colleghi, e forse non gli sembrerà neppure importante la
differenza fra clone e originale. Almeno fino al momento in cui vorrà
passare dallo speech-to-speech al cheek to cheek.
Come riconoscere il mio clone
Se vi state chiedendo quali parti di
questo podcast sono state pronunciate realmente da me e quali dalla
mia voce clonata, provate a riascoltarlo in cuffia: le parti reali
sono spostate leggermente a sinistra, mentre quelle sintetiche sono
traslate altrettanto leggermente a destra. Oppure provate a notare la
differenza di accento fra la mia voce vera e quella generata.
Vi ringrazio di aver seguito questa
puntata un po’ particolare del podcast Il Disinformatico, una produzione della RSI
Radiotelevisione svizzera, che si prende una breve pausa estiva e
tornerà venerdì 25 agosto con una nuova puntata al solito indirizzo
web, www.rsi.ch/ildisinformatico, e su tutte le principali
piattaforme podcast, dove sono a vostra disposizione anche le puntate
precedenti.
Come consueto, i link e le fonti di
riferimento sono pubblicati presso Disinformatico.info. E se avete
commenti, correzioni o segnalazioni, potete scrivermi una mail
all’indirizzo paolo.attivissimo@rsi.ch. A presto.