L’idiozia, Popper, Beckett e il Reinforcement Learning

fluid-img

Alcuni anni fa il giovane filosofo vicentino Riccardo Dal Ferro ha dato alle stampe un breve saggio dal titolo curioso: Elogio dell’idiozia. La prospettiva di Dal Ferro è interessante e per nulla peregrina: senza quella che in molti esprimiamo come «idiozia» non ci sarebbero stati i progressi che hanno condotto l’umanità dov’è adesso.

In buona sostanza, il processo dialettico di «tentativi ed errori», altro non è se non un passaggio da uno stato di «idiozia» a uno stato in cui si ha finalmente consapevolezza di ciò che si pensa e ciò che si fa. Il filosofo Popper rese visibile come non solo la scienza, ma anche ogni organismo naturale segue un processo evolutivo fondato sul ritmo «tentare, errare, ritentare, errare ecc.» fino a raggiungere un risultato – sia esso uno stadio evolutivo o una visione chiara su un determinato aspetto, e così via.

L’idiozia, insomma, è ciò che caratterizza ogni mente umana, anche la più intelligente, quando chiamata a fare esperienza di qualcosa che non conosce, iniziando un processo che si potrebbe riassumere con la frase del grande scrittore Samuel Beckett (anche se, spesso, come in questo caso, decontestualizzata): «Fail. Fail again. Fail better».

cosa c’è di più «idiota» di una macchina?

Ecco, le riflessioni riguardo il funzionamento umano basato su «tentativi ed errori» hanno reso possibile lo svilupparsi di uno dei metodi più utilizzati nell’ambito del machine learning: l’apprendimento con rinforzo, o Reinforcement Learning.

Come abbiamo visto, nel percorso di Apprendimento supervisionato siamo noi uomini a direzionare le azioni dell’intelligenza artificiale: le diamo dei dati, le diamo un risultato che vogliamo ottenere, e la guidiamo fino a quando non otterrà – accompagnandole nei vari errori che farà prima di arrivare al punto desiderato – ciò che vogliamo, per poi lasciarla continuare a lavorare in autonomia.

Il Reinforcement Learning, invece, non prevede un’assistenza umana, ma un insegnamento basato sul «premiare» la macchina ogni volta che il suo tentativo non darà un errore: insomma, un premio ogni volta che l’IA si allontanerà un pezzettino dal suo stato di «idiozia».

Un’intelligenza artificiale è un Agente, che viene calato in un ambiente che prima di allora non aveva mai incontrato. Un po’ come quando noi, magari da bambini, ci siamo ritrovati per la prima volta davanti a una scacchiera: non sapevamo cos’era il gioco degli scacchi, o il giocare a dama. Abbiamo avuto bisogno di un qualche insegnate, altrimenti – anche se dotati di grande intelligenza – non avremmo mai potuto comprendere autonomamente le regole per poter vincere nell’«ambiente scacchiera».

Beh, una macchina messa davanti a una scacchiera, se si sceglie di addestrarla affidandosi all’apprendimento con rinforzo non avrà un’insegnante: dovrà scontarsi da sola contro i propri errori, capendo che sono tali dal fatto che non ha ricevuto alcuna ricompensa. Un algoritmo, quando farà qualcosa di sbagliato, non commetterà più quell’errore.

E dunque, in questa tipologia di apprendimento, l’umano non fornisce alcuna quantità di dati all’IA: la lascia agire in un nuovo ambiente, dandole soltanto la possibilità di tentare e fallire, tenare e fallire, fino a quando ogni tentativo non corrisponderà più a un fallimento.

Così, non si insegna alla macchina a giocare a scacchi: le si danno le regole, sì, ma non le si spiega quali sono le mosse per vincere, non le si fornisce alcun dato in merito. La macchina giocherà, perderà, fino a quando non vincerà sempre – venendo «premiata» e comprendendo che le mosse che ha fatto fino a quel punto erano buone.

L’intelligenza artificiale, però, deve essere «idiota» per poter iniziare un percorso di crescita e apprendimento di questo tipo: quanti esseri umani sono disposti a ritenersi «idioti» per iniziare a progredire in un ambito? Quanti esseri umani riescono a convertire, in modo pacifico, la propria «idiozia» in un’ambiente in un’occasione per apprendere, rinforzarsi, ottenere ricompense?

Quanti esseri umani riescono a: fallire, fallire ancora, fallire meglio?