È disponibile subito il podcast di oggi de Il Disinformatico della
Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate
qui sul sito della RSI
(si apre in una finestra/scheda separata) e lo potete scaricare
qui. Se ho fatto bene i conti, con questa puntata arrivo a quota 800 episodi dal 2006 a oggi. Niente male.
Le puntate del Disinformatico sono ascoltabili anche tramite
iTunes,
Google Podcasts,
Spotify
e
feed RSS.
Buon ascolto, e se vi interessano il testo di accompagnamento e i link alle fonti di questa puntata, sono qui sotto.
---
[CLIP: Spezzone della voce restaurata di Lennon da “Now and Then”]
La voce di John Lennon, recuperata da un’audiocassetta registrata a casa sua
oltre quarant’anni fa e usata per il brano dei Beatles
Now and Then
appena uscito, stupisce non solo per le emozioni che evoca ma anche per la
qualità tecnica del restauro, considerato a lungo impossibile, perché la voce
era coperta dal pianoforte suonato dallo stesso Lennon. Questo restauro è ora
reso possibile dall’informatica e specificamente dall’intelligenza
artificiale.
Dappertutto ci sono discussioni animate su quanto sia “vera” o “falsa”
un’operazione di questo genere, ma il clamore intorno a Now and Then è
un’ottima occasione per esplorare il mondo ben più vasto del restauro sonoro
basato sul software e per scoprire quali meraviglie e nuove possibilità ci
offre non solo in campo musicale ma anche in termini di vera e propria
archeologia sonora.
Benvenuti alla puntata del 10 novembre 2023 del Disinformatico, il
podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie
strane dell’informatica. Io sono Paolo Attivissimo.
[SIGLA di apertura]
Sottrazioni e isolamenti
L’elaborazione digitale delle voci dei cantanti ha radici molto lontane: già
nel 1975, per esempio, la voce di Alan Parsons veniva trasformata digitalmente
da uno dei primi
vocoder digitali
nel brano The Raven. Adesso non stupisce più nessuno, ma all’epoca
tutto questo era molto innovativo.
[CLIP: Spezzone di “The Raven”]
Un altro tipo di elaborazione vocale digitale molto noto, e per alcuni
famigerato, è l’Autotune, che corregge le intonazioni e crea effetti di distorsione particolari: è
stato introdotto nel 1997 e reso celebre dalla canzone Believe di Cher
nel 1998.
[CLIP: Spezzone di “Believe”, con la voce isolata dalla musica]
Oggi il trattamento digitale delle voci in campo musicale conosce mille
sfumature ed è disponibile in quasi tutti i programmi per la produzione di
musica. Ma si tratta sempre di elaborazione: si parte da una sorgente
audio esistente e la si manipola in qualche modo per ottenere un determinato
risultato.
L’intelligenza artificiale, però, consente di fare ben di più, vale a dire
generare voci che nella realtà non esistono oppure isolare una voce da altri
rumori o suoni. È quello che è successo con la voce di Lennon per
Now and Then, che nell’audiocassetta originale era sovrastata dal suono
del pianoforte di accompagnamento, impossibile da filtrare con tecniche
convenzionali. È così che si è passati da questo…
[CLIP: Spezzone dell’audiocassetta di Lennon]
…a questo:
[CLIP: Spezzone della voce ripulita di Lennon]
in cui il pianoforte è completamente rimosso e la voce sembra registrata da un
microfono professionale in studio.
L’isolamento di uno strumento o di un rumore indesiderato tramite software di
intelligenza artificiale, specificamente di machine learning, lavora
per sottrazione: al software vengono forniti molti campioni dello
strumento o del rumore che si vuole rimuovere, e questo gli permette di
riconoscere gli elementi della registrazione che corrispondono a quello
strumento o rumore e quindi di sottrarli, lasciando così la voce originale e
offrendola pulita per ulteriori elaborazioni.
Questa tecnica di isolamento è oggi liberamente
disponibile
anche in molte applicazioni, anche
online, come Lalal.ai, al quale basta
inviare una registrazione digitale per riottenerne, nel giro di qualche decina
di secondi, una versione che isola la voce dagli strumenti oppure estrae solo
la percussione, le chitarre elettriche o acustiche, il pianoforte e altri
strumenti.
Software come questo, e come
Magic Dust AI, possono
anche rimuovere i rumori di fondo, per esempio da un’intervista in un ambiente
affollato e rumoroso, diventando strumenti preziosissimi non solo per
musicisti ma anche per giornalisti e anche per chi ha problemi di udito o più
in generale fatica a isolare una conversazione in un ambiente pieno di persone
che parlano.
Per esempio, se si addestra un software di machine learning dandogli
campioni puliti delle voci di due persone, quel software diventa in grado di
isolare le loro singole voci da una registrazione in cui parlano entrambe
contemporaneamente, come negli esempi che vi proporrò tra poco,
pubblicati dal
professor Paris Smaragdis dell’Università dell’Illinois, che ha lavorato al
restauro audio del documentario “Get Back” dedicato ai Beatles,
realizzato con tecniche simili a quelle utilizzate per recuperare la voce di
John Lennon. Queste sono le voci sovrapposte, che parlano in inglese:
[CLIP: voci sovrapposte]
E queste sono le singole voci:
[CLIP: voci separate]
Anche isolare una voce da un rumore di fondo particolarmente invadente è
fattibile con ottimi risultati. Sentiamo la registrazione originale e poi la
voce estratta dal software:
[CLIP: campione di voce con denoising]
Fin qui si tratta di togliere dei suoni indesiderati lasciando la parte che
interessa. Ma si può fare di più. Molto di più.
Restauro troppo creativo?
L’elaborazione del suono tramite intelligenza artificiale può essere
sottrattiva, come avete sentito fino a questo punto, ma può anche
essere generativa: in altre parole, aggiunge all’originale delle parti
mancanti. Per esempio, una registrazione molto vecchia o fatta usando
microfoni di bassa qualità può essere elaborata per renderla qualitativamente
più gradevole.
Magic Dust AI, per esempio, è in grado di prendere una registrazione fatta con
i modestissimi microfoni integrati negli auricolari dei telefonini ed
elaborarla per darle una qualità più vicina a quella di un microfono
professionale.
Lo stesso principio è utilizzabile anche per i brani musicali. Un altro
esempio pubblicato dal professor Smaragdis riguarda la cosiddetta
bandwidth expansion, cioè l’espansione della larghezza di banda. Le
registrazioni musicali d’epoca perdevano gran parte delle frequenze sonore più
basse e più alte, ma con questa tecnica è possibile ricreare quelle
frequenze mancanti. Il software viene addestrato dandogli dei campioni
musicali equivalenti registrati con qualità migliore, che vengono aggiunti
alla registrazione originale.
Per esempio, si prende questo brano musicale registrato in bassa qualità:
[CLIP: brano in bassa qualità]
poi si fornisce al software questo breve campione di strumenti analoghi
registrati meglio:
[CLIP: campione strumenti]
e questo è il risultato dell’elaborazione:
[CLIP: risultato]
Il problema di fondo di questa elaborazione generativa è che aggiunge
suoni che non erano presenti nella registrazione originale ma
probabilmente erano presenti durante l’esecuzione dal vivo e si sono
persi. Si tratta insomma di una approssimazione ragionevole, non di una
elaborazione certa di un segnale esistente. In questo caso, si può ancora
parlare di restauro puro o stiamo sconfinando nell’invenzione, in una sorta di
equivalente sonoro del ridare le braccia alla Venere di Milo basandosi sulle
braccia di altre statue analoghe?
Non è chiaro, al momento, se la voce di John Lennon sia stata elaborata da un
software di questo secondo tipo o se sia stata fatta solo una sottrazione dei
suoni indesiderati seguita da un’elaborazione del contenuto sonoro
effettivamente esistente. E anche se dovesse trattarsi di elaborazione
generativa per ridare ricchezza e corpo alla voce originale, si tratterebbe
comunque di un’elaborazione basata su campioni di alta qualità della voce di
Lennon, per cui la voce sarebbe comunque la sua. Forse quello che conta è che
all’orecchio la voce che si sente in Now and Then sembra proprio quella
dello scomparso John Lennon, fresca come se fosse stata registrata ieri, e
alla fine l’emozione prevale sulla disquisizione tecnica.
E se schiudiamo le porte al restauro audio generativo diventano possibili
scenari inaspettati e recuperi di suoni davvero straordinari.
Archeologia sonora
Il professor Smaragdis ha pubblicato anche altre dimostrazioni di usi inattesi
dell’elaborazione dei suoni tramite intelligenza artificiale. Per esempio, il
riconoscimento dei suoni può essere usato per l’analisi dei contenuti video,
come nel rilevamento dei momenti salienti di un evento sportivo registrato.
Normalmente è necessario far scorrere il video registrato fino a trovare
l’istante del gol, del punto o dell’azione di gioco importante, ma se un
software riconosce suoni come gli applausi o le esclamazioni di gruppo può
localizzare automaticamente gli istanti che interessano.
Il machine learning applicato all’audio ha anche applicazioni
interessanti nella sicurezza. È molto difficile rilevare automaticamente un
evento nelle immagini di una telecamera di sorveglianza se ci si basa appunto
sulle immagini, perché il riconoscimento delle immagini ha un tasso d’errore
molto alto. Ma se ci si basa sull’audio, per esempio riconoscendo grida, voci
sotto stress o rumori improvvisi, diventa relativamente facile identificare
queste situazioni e inviare un avviso automatico che consenta di intervenire
più prontamente.
[CLIP: Spezzone di aggressione simulata, usato per testare il sistema]
Ma l’applicazione più affascinante resta l’archeologia sonora.
Generando i suoni mancanti, è possibile rendere fruibili registrazioni la cui
qualità scadente le relegherebbe nell’oblio, come nel caso delle registrazioni
tremolanti e gracchianti degli inizi dell’era del fonografo o dei cilindri di
cera, ed è possibile estrarre suoni da fonti quasi inimmaginabili.
Nel 1860, quando negli Stati Uniti iniziava la presidenza di Abramo Lincoln,
Garibaldi [in Italia] iniziava la spedizione dei Mille e in Francia
c'era Napoleone III, il francese Édouard-Léon Scott de Martinville usò un
apprecchio rudimentale, il
fonautografo, per
catturare suoni su un foglio di carta
coperto di nerofumo, quella finissima fuliggine prodotta dalle lampade a olio.
Il suono veniva inciso nel nerofumo usando una setola di maiale collegata a
una membrana di pergamena che si muoveva in base al suono raccolto da un
cilindro o da un corno. Queste incisioni all’epoca erano impossibili da
riascoltare, ma sono state conservate e ricostruite digitalmente già alcuni
anni fa, sia pure con un fortissimo fruscio di fondo:
[CLIP: ricostruzione originale]
Ora sono elaborabili anche con l’intelligenza artificiale. E così oggi
possiamo sentire, sia pure con una certa fatica, una persona che nel 1860
cantava Au clair de la lune.
[CLIP: versione ripulita]
Con i progressi dell’elaborazione dei suoni che prima venivano considerati
irrecuperabili, viene da chiedersi quale sarà la prossima frontiera inattesa
del restauro sonoro.
Nel 1969, la rivista scientifica Proceedings of the Institute of Electrical and Electronics Engineers ospitò sulle sue
auguste pagine una lettera firmata da un certo R.G. Woodbridge
[Acoustic recordings from antiquity], che affermava di aver scoperto registrazioni sonore accidentali sulle
superfici di oggetti antichi e in particolare su vasi lavorati sui torni da
vasai, in cui il tornio poteva essere immaginato come una sorta di primitivo
giradischi e la mano del vasaio come una puntina da incisione sonora molto
grossolana.
[Il testo della lettera è dietro paywall, ma
Bldblog.com ne ospita
qualche estratto, notando che secondo Woodbridge i suoni sarebbero
registrati anche nei quadri dipinti a olio e sarebbero riascoltabili tenendo
la puntina di un giradischi in contatto con la superficie del vaso in questione, che viene fatto girare, oppure muovendo la puntina sopra una pennellata di un quadro: “positioned
against a revolving pot mounted on a phono turntable (adjustable speed)
‘stroked’ along a paint stroke, etc.” Grazie a questo gesto, “low-frequency
chatter sound could be heard in the earphones.”
Woodbridge suggerisce anche applicazioni alternative:“This is of particular
interest as it introduces the possibility of actually recalling and hearing
the voices and words of eminent personages as recorded in the paint of their
portraits or of famous artists in their pictures.” Inoltre descrive un
esperimento: “With an artist’s brush, paint strokes were applied to the
surface of the canvas using “oil” paints involving a variety of
plasticities, thicknesses, layers, etc., while martial music was played on
the nearby phonograph. Visual examination at low magnification showed that
certain strokes had the expected transverse striated appearance. When such
strokes, after drying, were gently stroked by the “needle” (small, wooden,
spade-like) of the crystal cartridge, at as close to the original stroke
speed as possible, short snatches of the original music could be identified.
[…] Many situations leading to the possibility of adventitious acoustic
recording in past times have been given consideration. These, for example,
might consist of scratches, markings, engravings, grooves, chasings, smears,
etc., on or in “plastic” materials encompassing metal, wax, wood, bone, mud,
paint, crystal, and many others. Artifacts could include objects of personal
adornment, sword blades, arrow shafts, pots, engraving plates, paintings,
and various items of calligraphic interest.”]
Le sue affermazioni non furono mai verificate, ma di fronte a queste nuove
meraviglie del restauro dei suoni la sua proposta sembra un pochino meno
fantascientifica. Staremo a vedere; anzi, a sentire.