Pubblicazione iniziale: 2023/11/05 11:13. L’articolo è stato aggiornato estesamente dopo la pubblicazione iniziale per tenere conto di nuove informazioni. Ultimo aggiornamento: 2023/11/09 18:45.
I Beatles hanno rilasciato pochi giorni fa una nuova canzone, Now and Then. È surreale che i Beatles escano con un brano nel 2023, ma grazie al machine learning è possibile. Lasciando da parte la bellezza del brano in sé e il suo valore emotivo, rimane la questione tecnica e quasi filosofica di decidere se lo si possa considerare “autentico”, e più in generale cosa voglia dire oggi questa parola.
Questo è il video ufficiale della canzone:
John Lennon aveva registrato una demo della propria voce, mentre cantava questo brano, su una semplice audiocassetta, nel 1977, accompagnandosi al pianoforte (questo dovrebbe essere un suo riversamento grezzo; fonte alternativa [2023/11/09: i link sono stati rimossi]). La voce di Lennon era in buona parte coperta dal pianoforte e prima d’ora era impossibile filtrare o separare il pianoforte per recuperare solo la voce e poi completare la canzone registrando oggi gli strumenti e le voci di accompagnamento, come si fa di solito e come fu fatto nel 1995 per Free as a Bird, altra canzone dei Beatles che usa la voce di Lennon tratta da una demo registrata su audiocassetta.
Così i Beatles ancora in vita, Paul McCartney e Ringo Starr (Lennon fu ucciso nel 1980 e George Harrison è morto di malattia nel 2001), hanno deciso di usare la tecnica di ricostruzione e demixing (isolamento e separazione dei singoli strumenti e delle voci, portandole su tracce separate) usata da Peter Jackson con grande successo per l’audio del documentario Get Back (esempio).
Il procedimento è descritto nel video qui sotto, che spiega la genesi di Now and Then: l’audio originale di Lennon è ascoltabile brevemente a 3:04, 4:10 e 4:46; a 7:08 si sente la voce ricostruita, prima dell’aggiunta dell’accompagnamento musicale usato per il brano finale.
Come descritto in dettaglio in questo video, la demo originale di Lennon è stata inoltre accelerata leggermente, una porzione è stata rimossa ed è stata aggiunta una parte nuova che sfrutta dei cori tratti da altre canzoni dei Beatles, come Eleanor Rigby e Because.
I dettagli pubblicamente disponibili di questo procedimento di demixing sono scarsi, e per ora non ho trovato documentazione tecnica specifica su come è stato applicato a Now and Then. Però ho trovato questa intervista, che usa con molta circospezione i termini inglesi “generative” e “regenerative” (a partire a 8:53), e questo video e questo articolo di New Scientist (paywall; copia su Archive.is), che accennano a tecniche sottrattive. Tutte queste fonti sono dedicate a Get Back, ma sembra che la tecnica usata per il nuovo brano dei Beatles sia sostanzialmente la stessa, e nei video ufficiali dedicati a Now and Then si parla esplicitamente di machine learning e si nomina il software MAL usato per Get Back e gestito, per Now and Then, da Emile de la Ray, Hunter Jackson e Tyrone Frost, come indicato nei titoli di coda del secondo video incorporato qui sopra.
Da quel che ho capito, ci sono due scenari possibili:
- Sottrazione: i suoni del pianoforte nella cassetta di Lennon sarebbero stati rimossi dando al software moltissimi campioni di suoni di pianoforti e addestrandolo a riconoscere e sottrarre solo quei suoni, lasciando quindi pulita la voce originale di Lennon, che sarebbe stata poi elaborata digitalmente con tecniche convenzionali.
- Generazione: il software sarebbe stato addestrato su un gran numero di campioni di alta qualità della voce di Lennon e poi avrebbe usato l’audio registrato da Lennon sulla cassetta come riferimento per aggiungere le frequenze mancanti o generare i suoni vocali corrispondenti in alta qualità, attingendo ai campioni forniti, come nel modello di bandwidth expansion che potete ascoltare verso il fondo di questa pagina.
Qualche indizio sulla tecnica effettivamente usata può emergere da questo brano dell’articolo di New Scientist riferito a Get Back, che indica che i dati usati per addestrare la rete neurale includevano campioni di persone generiche che parlano e di strumenti suonati separatamente (non dai Beatles) e spezzoni dell’audio originale di Get Back nei quali i Beatles parlavano senza altri suoni estranei oppure suonavano i propri strumenti uno alla volta:
The team consulted with Paris Smaragdis at the University of Chicago and started to create a neural network called MAL (machine assisted learning), named after the Beatles’ longstanding road manager Mal Evans. The team also started to build a set of training data that was higher quality than datasets used in academic experiments.
This training data began as generic clips of people talking and instruments played separately that team members recorded themselves, roping in friends and colleagues. In time, the team added to this data with real sections of the 1969 audio in which the Beatles could be heard speaking alone or playing their instruments solo, to add specificity.
Se si tratta di pura sottrazione, allora mi sembra ragionevole dire che la voce che si sente è effettivamente quella di Lennon. Ma se i suoni originali sono stati ricostruiti o sostituiti con suoni analoghi di migliore qualità, sia pure provenienti da campioni della voce di Lennon, si può ancora parlare di voce autentica?
Comunque sia, il risultato all’ascolto è indiscutibilmente notevolissimo: emotivamente, la voce è quella di Lennon. Però mi sembra che questa tecnica generativa, se è stata usata, rischi di sconfinare nel deepfake se non addirittura nel falso. In questo caso era disponibile come riferimento una registrazione di Lennon che cantava effettivamente quella canzone; ma quanto sono accurati i campioni che sostituiscono gli originali (nell’ipotesi di una generazione)? E cosa impedisce di usare questa tecnica per far cantare a Lennon qualunque altro brano?
Mi sembra insomma che ci sia una differenza tecnica e di principio fondamentale fra ripulire ed elaborare una voce esistente, effettivamente registrata, e sostituirne ogni singolo suono con un altro preso da un campionario, anche se si tratta di campioni della voce del cantante originale.
Per fare un paragone, è come se si decidesse di restaurare il Colosseo usando materiali dello stesso tipo degli originali, con tecniche di costruzione identiche a quelle originali, per ridare all’edificio l’aspetto che aveva prima di cadere in rovina. Sarebbe ancora un edificio autentico? È il paradosso della nave di Teseo in versione musicale.
L’intelligenza artificiale, di cui il machine learning è una branca, sta cambiando il modo in cui pensiamo a concetti fondamentali come vero e falso, autentico e sintetico. Credo sia importante fermarci a riflettere se è questo il tipo di cambiamento che vogliamo, e come vogliamo dirigerlo.
Nessun commento:
Posta un commento