Il Disinformatico: riconoscimento testi

Visualizzazione post con etichetta riconoscimento testi. Mostra tutti i post

2021/06/06

Perché la guida autonoma è così difficile: la bufala del riconoscimento di schemi spacciato per “intelligenza”

Ultimo aggiornamento: 2021/11/12 1:40.

Vado subito al sodo per chi ha fretta. Faccio tre asserzioni-scommessa:

Il machine learning è semplicemente un riconoscimento di schemi (pattern recognition) e non costituisce “intelligenza” in alcun senso significativo della parola.
Il riconoscimento di schemi fallisce in maniera profondamente non umana e in situazioni che un umano invece sa riconoscere in maniera assolutamente banale. Questo rende difficilissimo prevedere e gestire i fallimenti del machine learning e quindi rende pericolosa la collaborazione umano-macchina.
Qualunque sistema di guida autonoma o assistita basato esclusivamente sul riconoscimento degli schemi è destinato a fallire in maniera imbarazzante e potenzialmente catastrofica.

Sono asserzioni molto forti, e le faccio sapendo di non essere un esperto di questi settori ma semplicemente un loro osservatore con un pizzico di esperienza personale: se vi fidate di me, lo fate a vostro rischio e pericolo, e sono disposto a cambiare idea di fronte a smentite documentate (e francamente sarei contento di perdere questa scommessa). Però temo che ignorare queste riflessioni possa essere un grosso pericolo per molti.

Premetto inoltre che non sto dicendo che l’intelligenza artificiale è una bufala, ma che il machine learning viene spesso spacciato per “intelligenza”. E prima di criticare, vi chiedo di leggere attentamente le parole che ho scelto con cura nel formulare le mie asserzioni-scommessa.

Provo a spiegare cosa mi ha portato a queste conclusioni provvisorie.

Prima di tutto riassumo cosa si intende per machine learning: in estrema sintesi, si danno in pasto a un software tantissimi esempi di una cosa, tantissimi esempi di cose differenti (ossia che non sono quella cosa) e lo si “premia” quando riconosce correttamente la cosa in questione. Questo apprendimento automatico può raggiungere livelli di affidabilità altissimi e in molti casi funziona egregiamente. Il riconoscimento ottico dei caratteri (OCR) e il riconoscimento vocale sono esempi di grande successo del machine learning.

Ma si può dire che un sistema di OCR sia intelligente? Capisce che sta leggendo un sonetto di Shakespeare o una mail di spam, e può quindi adeguarsi di conseguenza? È in grado di considerare il contesto e capire che magnifica e magni fica sono due letture molto differenti e potenzialmente imbarazzanti, ma che la seconda potrebbe essere valida se lo scrivente si esprime in romanesco? Un lettore realmente intelligente lo capirebbe dal contesto (e dalla sua conoscenza delle attività sessuali umane). Un OCR no. Non è intelligente, perché non ha conoscenza del mondo reale, ma conosce soltanto delle forme (le lettere) e assegna loro una probabilità di corrispondere a uno dei modelli che conosce. Non sa nulla del loro significato e quindi non può correggersi di conseguenza. E non importa quanti miliardi di campioni di lettere o di parole gli dai: non acquisirà mai la comprensione del testo.

Ogni tanto questi sistemi di riconoscimento sbagliano, ma non è un problema. Se un sistema di OCR “legge” una parola al posto di un’altra non muore nessuno. Se Alexa crede che l’abbiate chiamata, quando invece stavate pronunciando il nome della vostra spasimata Alessia durante un momento di passione, il peggio che può succedere è che la registrazione del vostro amplesso finisca nel cloud di Amazon e venga scambiata fra i dipendenti dell’azienda che fanno il monitoraggio dei campioni audio. Imbarazzante, ma probabilmente non letale.

La ragazza che si chiama Alessia è un cosiddetto edge case: un caso limite, una situazione rara che però fa sbagliare il sistema di riconoscimento.

Questi sbagli avvengono in modi strani perché l’addestratore umano, quello che insegna al software a riconoscere una forma, non riesce a calarsi nella “visione del mondo” che ha quel software e non riesce ad anticipare tutti i modi possibili nei quali potrebbe prendere un granchio e a insegnargli a riconoscere tutti questi casi limite.

Lo spiega benissimo uno che di queste cose ne capisce a pacchi, Andrej Karpathy, direttore del reparto di intelligenza artificiale di Tesla, in questa lezione magistrale del 2018, quando mostra queste immagini:

Quante auto sono? Una, quattro o due?

Come si possono annotare (identificare per il software) le linee di corsia quando fanno così?

Altri due esempi fra tanti: un’auto caricata a coda in avanti su una bisarca è un’auto in contromano?

Credit: Roman Babakin / Shutterstock (fonte).

Una bici montata di traverso sul retro di un’auto è una bici che mi sta tagliando la strada e devo quindi frenare?

Dal Tesla Autonomy Day (2019) a 2:06:25.

Di recente su Reddit è stato pubblicato un bell’esempio di questi edge case: un camion ha dei cartelli di stop dipinti sul portellone posteriore, e il sistema di riconoscimento ottico dei cartelli di una Tesla li etichetta e li mostra come se fossero cartelli reali.

Cosa succede se il sistema di decisione dell’auto ritiene che quei cartelli siano reali e quindi inchioda in mezzo alla strada, creando la situazione perfetta per un tamponamento a catena? Ìl sistema è sufficientemente sofisticato da tenere conto del contesto e quindi “sa” che i cartelli stradali normalmente non si muovono lungo le strade, per cui rigetta il riconoscimento e lo ignora nelle sue decisioni di guida?

Un conducente umano, avendo conoscenza del mondo, non avrebbe la minima esitazione: sono cartelli dipinti sul retro di un camion, li posso tranquillamente ignorare. Un sistema di guida autonoma o assistita sarà altrettanto consapevole? E il conducente saprà anticipare questi possibili errori che lui non farebbe mai?

Beh, direte voi, dai, una cosa del genere sarà un caso raro. Poi succede questo:

Una Tesla Model 3 viaggia a 130 km/h e mostra un flusso costante di semafori che appaiono dal nulla sulla corsia del conducente.

Un essere umano sa in un millisecondo che questo è impossibile, perché ha conoscenza del mondo e sa che i semafori non volano e non compaiono dal nulla; il sistema di guida assistita di Tesla no, perché non “sa” realmente che cosa sono i semafori nel mondo reale e quindi non “sa” che non possono apparire dal nulla a 130 km/h.

Che cosa ha causato questo clamoroso errore di riconoscimento? Un camion che trasportava semafori.

Eh dai, ma i semafori erano spenti, obietterete voi. Poi succede questo:

Questo è esattamente il tipo di errore che un conducente umano non farebbe mai e che invece un sistema di guida basato esclusivamente sul riconoscimento delle immagini farà, e farà in circostanze imprevedibili. Con conseguenze potenzialmente mortali. Se state valutando un’auto dotata di questi sistemi, pensateci bene. Se ne avete una, pensateci ancora di più.

Certo, gli umani commettono altri tipi di errori, per cui alla fine l’obiettivo non è creare un sistema di guida assolutamente infallibile, ma semplicemente uno che fallisca mediamente meno (ossia causi meno incidenti) della media dei conducenti umani.

Tutto questo vuol dire che la guida autonoma basata sul riconoscimento puro degli schemi è impossibile? No. Una soluzione potrebbe essere semplificare l’ambiente operativo (strade su misura, rigidamente normate, accessibili solo a veicoli autonomi/assistiti). Per esempio, un ascensore (che in sostanza è un treno verticale in una galleria verticale chiusa) è un sistema di “guida autonoma” affidabilissimo, che richiede pochissima “intelligenza” grazie a un ambiente operativo ipersemplificato.

Allo stesso tempo, va notato che ci sono esempi di sistemi che interagiscono egregiamente con un ambiente operativo complesso pur avendo una “intelligenza” molto limitata: le api. Con un solo milione di neuroni riescono a navigare, interagire con i fiori, comunicare con le altre api, gestire gli aggressori e avere una società complessa e organizzata (hanno persino delle “votazioni”). Noi abbiamo cento miliardi di neuroni (centomila cervelli d’ape) a testa e non riusciamo a capire come indossare una mascherina o perché. Chiaramente c’è un margine di ottimizzazione che le api sfruttano e noi no, ma è anche vero che un’ape va in crisi quando incontra l’edge case di una cosa che non esiste in natura, tipo una barriera trasparente (il vetro di una finestra).

È anche possibile che estendendo il concetto di riconoscimento degli schemi all’asse del tempo (ossia imparando a riconoscere come cambia un oggetto nel corso del tempo) ed estendendo il concetto di schema a oggetti complessi (incroci, rotatorie, attraversamenti pedonali) si riesca a ottenere risultati accettabili. Ma questo richiede un database di esempi colossale, una classificazione vastissima e una potenza di calcolo ancora più colossale. Nessuno dei sistemi attualmente in commercio ci si avvicina, come spiega bene Filip Piekniewski. Siate prudenti.

Questo articolo vi arriva gratuitamente e senza pubblicità grazie alle donazioni dei lettori. Se vi è piaciuto, potete incoraggiarmi a scrivere ancora facendo una donazione anche voi, tramite Paypal (paypal.me/disinformatico) o altri metodi.

2021/04/23

Perché i computer sono stupidi?

Si fa un gran parlare di intelligenza artificiale: computer che riconoscono la voce, come Siri o Alexa o OK Google, giocano a scacchi meglio degli esseri umani, identificano ed evitano ostacoli nella guida autonoma o assistita, con tempi di reazione fulminei e irraggiungibili per una persona. È facile pensare che siamo ormai vicini alla creazione di una vera intelligenza sintetica generalista, capace di competere con un essere umano.

Ma l’informatico statunitense Terry Winograd ha ideato un test che dimostra che non è affatto così. Il bello è che lo ha fatto nel 1972, e il suo test funziona ancora adesso. Non per nulla è diventato professore d’informatica alla Stanford University ed è considerato uno dei massimi esperti nel settore.

Il test di Winograd è beffardo, dal punto di vista degli informatici, per la sua semplicità. Una delle sue formulazioni tipiche è questa:

Il trofeo non ci stava nella valigia marrone perché era troppo grande.

Una frase banale, con una struttura grammaticale semplice e parole comunissime, perfettamente comprensibile. Talmente comprensibile e ovvia, per noi umani, che neanche ci accorgiamo che è ambigua. Quale dei due oggetti era troppo grande? Il trofeo o la valigia? Per noi la risposta è istantanea. Per un computer, invece, no.

Infatti una semplice analisi meccanica della frase (“questo è un sostantivo, questo è un verbo”, eccetera) non consente di risolvere l’ambiguità. Per farlo bisogna sapere che cos’è un trofeo, che cos’è una valigia, quali sono i normali rapporti di dimensione fra trofei e valigie, che le valigie sono fatte per contenere oggetti e i trofei no, e il fatto che se l’oggetto A deve stare dentro l’oggetto B, non è un problema se l’oggetto B è molto più grande dell’oggetto A: bisogna sapere che le cose piccole possono stare dentro le cose grandi ma non viceversa.

Non è neanche possibile usare uno dei trucchi preferiti dei sistemi di intelligenza artificiale, ossia sfruttare un enorme corpus di testo e un po’ di statistica per arrivare a una disambiguazione affidabile, o la tecnica tipica degli assistenti vocali, ossia estrarre le singole parole riconosciute e tirare a indovinare sul significato generale della frase. Serve esperienza del mondo.

Il test di Winograd ha varie versioni, chiamate schemi, composte da due frasi che sono differenti tra loro soltanto per una o due parole ma contengono un’ambiguità che si risolve in due modi opposti. Risolverla non è possibile usando le regole della grammatica e della sintassi: richiede conoscenza della realtà e ragionamento. Un computer che fosse capace di farlo sarebbe, all’atto pratico, intelligente.

Questo è un esempio di schema di Winograd:

I consiglieri comunali rifiutarono il permesso ai manifestanti perché temevano disordini

I consiglieri comunali rifiutarono il permesso ai manifestanti perché istigavano disordini

Le persone interpretano la prima frase nel senso che sono i consiglieri comunali a temere disordini; interpretano la seconda nel senso che gli istigatori sono i manifestanti. Eppure le frasi sono strutturalmente identiche. Lo fanno perché sanno cosa sono i consiglieri comunali e quali sono i loro compiti, e sanno che cosa sono le manifestazioni e le loro possibili conseguenze.

Beh, direte voi, ma frasi ambigue come queste sono rare. Invece no: un gruppo di ricercatori ne ha radunati 150 esempi, da usare come test d’intelligenza per computer. Frasi banalissime, come “ho messo un libro pesante sul tavolo e si è rotto”. Persino GPT-2, uno dei sistemi di intelligenza artificiale più moderni applicato al linguaggio, va in crisi di fronte agli schemi di Winograd, come spiega bene Tom Scott in questo video.

Potremmo risolvere il problema rivolgendoci ai computer in modo meno ambiguo? È improbabile. Il guaio è, infatti, che siamo talmente abituati a usare sottintesi basati sulla conoscenza del contesto che troveremmo estenuante parlare o scrivere in maniera perfettamente non ambigua.

Questa necessità di avere contesto per capire e risolvere le ambiguità non è solo una questione linguistica: è un ostacolo per un settore delicatissimo come la guida autonoma.

Un’automobile che usi un sistema di puro riconoscimento delle immagini, per esempio, verrà confusa dall’immagine della bambina in mezzo alla strada che vedete all’inizio di questo articolo e probabilmente frenerà di colpo per non colpirla. Al sistema mancano il contesto temporale (la deduzione delle forme reali a partire dal modo in cui cambia l’aspetto nel corso del tempo, e alcuni costruttori ci stanno lavorando) e la conoscenza del comportamento dei bambini: due cose che consentono di capire che non ha senso che una bambina sia perfettamente immobile in quella posizione e che la forma della “bambina” cambia, man mano che ci si avvicina, in un modo che rivela senza dubbio che si tratta di un disegno applicato alla superficie stradale.

Senza dubbio, s’intende, se siete esseri umani. Forse servono strade disambiguate, percorsi semplificati e ben demarcati, che vengano incontro alle limitate capacità dei sistemi di guida autonoma attuali.

Chiarisco che qui non si tratta di rivendicare una superiorità innata e invalicabile dei cervelli biologici su quelli sintetici: non è la materia prima che fa la differenza, è la conoscenza associata agli oggetti che vengono elaborati. Noi l’abbiamo (la acquisiamo), ma le macchine no, perché non gliela diamo. Il giorno che sapremo insegnare a un computer questa conoscenza, avremo davvero macchine intelligenti.

In sintesi: l’intelligenza artificiale fallisce in modi profondamente “inumani”. Dà l’illusione della comprensione. Questo rende particolarmente difficile prevedere i suoi errori e correggerli. Specialmente quando si è al volante. Ricordiamocene prima di affidarci a questi sistemi.

2019/08/02

Piccolo test: Facebook legge i testi nelle foto

Vi va di fare un piccolo esperimento? Prendete un foglio di carta e scrivete (a mano) una sequenza di quattro o cinque parole improbabili e casuali. Fotografate il foglio e postate la foto su Facebook, rendendola pubblica e visibile a tutti.

Aspettate qualche minuto e poi provate a cercare quella sequenza di parole in Facebook. Cosa succede?

Dovrebbe succedere quello che è successo ad alcuni lettori: il motore di ricerca di Facebook trova la vostra foto.

E dopo pochi minuti, ecco il risultato.

Impressionante... pic.twitter.com/a1pAFt11Il
— PanDemonio68 (@PanDemonio68) July 29, 2019

Precisamente pic.twitter.com/dOTWu2tZTI
— Alessandro Picarone (@SandroPicarone) July 29, 2019

Facebook, infatti, esegue il riconoscimento dei caratteri nelle immagini con un sistema di machine learning denominato Rosetta, come descritto in questo articolo tecnico di Facebook.

Quando vi siete divertiti abbastanza a stupire gli amici con questa particolarità di Facebook, provateci con Instagram. Sì, funziona anche lì. Buon divertimento.

Cerca nel blog