Rileggendo il mio primo articolo per Appunti – L’impostore digitale – sulle prospettive dell’intelligenza artificiale, anche alla luce dei successivi sviluppi, mi sono reso conto che sono forse stato troppo pessimista nei toni.
Il mio ambito di esperienza, ed i miei valori di riferimento derivanti dalla formazione e dal settore lavorativo, mi pongono naturalmente in un punto di osservazione molto critico. Non per tutti è così – anzi, forse solo per una minoranza.
Il cervello umano è predisposto ad antropomorfizzare tutto ciò che vede: bastano due palline e una linea curva per fare un volto; lo sguardo languido di un animale per pensare che “gli manca solo la parola”; un fenomeno incomprensibile per immaginare spiriti e divinità senzienti.
È quindi molto facile cadere nella tentazione di considerare l’IA come davvero intelligente.
Già ELIZA, il primo chatbot della storia, era riuscito ad ammaliare la segretaria del suo sviluppatore, Joseph Weizenbaum, con la tecnologia degli anni Sessanta.
Chi segue un percorso tecnico-scientifico viene educato a leggi e principi deterministici e al mantra correlation is not causation (correlazione non implica causalità).
La conoscenza deriva dallo stabilire relazioni affidabili di causa-effetto, sintetizzate in postulati, leggi, enunciati, teoremi, equazioni etc.
Una, dieci, mille osservazioni possono non valere nulla di fronte ad una singola osservazione contraria.
L’IA dei modelli linguistici (LLM, large language model) non è (al momento) in grado né di comprendere né di utilizzare questa forma di conoscenza. E mi spingo molto più a fondo: il problema è dello stesso concetto di regressione statistica, alla base dell’apprendimento delle reti neurali, a quindi anche dei LLM.
Per apprendere una legge deve convertire tutte le sue (infinite) manifestazioni in pesi statistici – creando una complicatissima mappa probabilistica anche per la più banale legge deterministica.
Nel mondo dell’IA, “causation is correlation” (causazione è correlazione) perché non esiste altra conoscenza che non sia pura correlazione statistica!
Se volete la dimostrazione pratica, provate a porre un problemino di fisica da terza superiore ad un LLM.
È stato chiesto di calcolare l’energia per pompare acqua da 20 metri sotto terra alla cima di una torre 5 metri più in alto.
ChatGPT sbaglia a calcolare la differenza di altezza, e poi fa un pasticcio totale con le unità di misura della densità dell’acqua, ottenendo una risposta sbagliata di quasi 3 ordini di grandezza.
Sebbene l’IA mostri di ricordare cosa dicono le leggi del moto e dell’energia potenziale, non le capisce. Non capisce neppure il problema.
Gioca con i numeri come gioca con le parole, arrivando ad una conclusione totalmente errata, ma dal tono molto autorevole.
Statisticamente ha incontrato quelle parole in quell’ordine, domande simili risposte in un certo modo, e cerca di imitare l’uomo. Ma è una finta, perché non può capire davvero nulla.
Dalle probabilità alle certezze
Con l’avvento della termodinamica statistica a fine Ottocento e della meccanica quantistica a inizio Novecento, si è scoperto che molti principi pienamente deterministici nel mondo macroscopico erano generati da fenomeni microscopici governati dal puro caso.
I comportamenti casuali di miliardi di miliardi di miliardi e molti più atomi e altre particelle elementari determinano le proprietà apparentemente così prevedibili del mondo esperibile.
Nel mondo microscopico non esiste quasi nulla di impossibile, ma la composizione di infinite probabilità microscopiche porta il mondo macroscopico a dividersi tra il praticamente certo, che osserviamo, e l’assurdamente improbabile, che non è mai stato osservato e mai lo sarà.
Il motivo per il quale l’acqua calda non si separa spontaneamente da quella fredda, regalandoci energia infinita per scaldarci, non è perché un Dio ha decretato di frustrare l’uomo con la seconda legge della termodinamica.
Ma perché è molto, molto improbabile che una enorme quantità di particelle di velocità (temperature) diverse si separino casualmente.
Da questi calcoli probabilistici deriva poi la seconda legge. Può teoricamente essere violata? Sì. È mai successo/succederà? Non basterà tutta la storia dell’universo per farlo accadere.
Un altro esempio eclatante: forse non tutti sanno che il teletrasporto esiste già e viene estesamente utilizzato nei microscopi a scansione elettronica.
Tutta la materia può, per quanto prevede la teoria, teletrasportarsi ovunque nell’universo (rispettando la velocità della luce).
Però la probabilità che ciò avvenga è inversamente proporzionale alla massa. Gli elettroni ci riescono abbastanza spesso percorrendo distanze sub-nanometriche: è l’effetto tunnelling sfruttato nei microscopi.
Ma già per un atomo intero è talmente improbabile da non essere mai stato osservato. Per un intero equipaggio spaziale bisogna proprio guardare un film di fantascienza.
Perciò sembrerebbe proprio che l’approccio dell’IA sia corretto: laddove c’è sufficiente correlazione, significa che c’è anche causazione.
Dove sufficiente, però, può significare un numero immensamente più grande di qualsiasi capacità computazionale disporremo mai.
Come si insegna la scienza ad una IA?
Immaginiamo di voler insegnare la seconda legge della termodinamica, dall’esempio precedente, ad una rete neurale.
Dovremo fargli osservare il moto casuale di molte, moltissime particelle. Ed in molte, moltissime situazioni diverse. Potrebbe servire un modello enorme solo per poter rispettare la termodinamica.
Porto un esempio derivante dalla mia esperienza professionale: ho studiato diversi metodi per applicare l’IA al controllo di processo.
Nel mio caso si tratta di sistemi termici, ma supponiamo di voler mantenere costante la velocità di una automobile implementando un cruise control.
Se volessimo calcolare esattamente quanta potenza serve ab initio, cioè dai principi primi, dovremmo conoscere: pendenza della strada, direzione e forza del vento, il carico dell’automobile, temperatura pressione e umidità esterna, del combustibile, del motore, usura dei pneumatici, e forse altro. Servirebbe anche un modello analitico che metta insieme tutti questi parametri.
Viaggeremmo su una specie di laboratorio mobile, ma potremmo sempre determinare esattamente quanto “premere sull’acceleratore”.
Poco pratico? Allora, addestriamo una IA. Abbiamo tre scelte: potremmo darle un’automobile vera e fargliela guidare in tutte le condizioni possibili, in modo che l’IA apprenda le leggi fisiche sottostanti. Ma distruggerebbe miliardi di automobili nel processo.
Oppure potremmo registrare le condizioni di guida di miliardi di automobilisti, ma mancherebbero moltissime informazioni al contorno necessarie a definire il problema (le automobili, dopotutto, non sono laboratori mobili…).
Infine, disponendo di un modello completo, potremmo creare una automobile virtuale e fare scuola guida con quella. Ma impiegheremmo comunque risorse computazionali immense nel tentativo di esplorare infinite risposte insensate dal punto di vista fisico.
L’apprendimento andrebbe comunque validato in molte situazioni diverse, e non avremmo mai la certezza che faccia la cosa giusta, rimanendo probabilistico in essenza.
L’approccio di frontiera è quello di imbrigliare l’IA dentro al modello fisico approssimato, proibendole, durante l’apprendimento, di perdere tempo tra infinite soluzioni impossibili e, in esecuzione, di restituire risposte implausibili.
Questo approccio prende il nome di Physics Informed Neural Network (PINN) cioè reti neurali informate da modelli fisici.
Poiché un addestramento accettabile di una PINN richiede spesso un modello piuttosto completo, nella mia esperienza personale alla fine è stato più conveniente utilizzare il modello stesso lasciando perdere l’IA.
Le automobili si affidano ad una famiglia di algoritmi detta PID, Proporzionale Integrativo Derivativo – diffusissima nei controlli automatici.
Con soli tre parametri e una formula molto semplice, è possibile mantenere sotto controllo accettabile processi anche piuttosto caotici.
È illuminante quanto una equazione con tre parametri possa essere preferibile ad una rete neurale che ne ha migliaia o milioni.
Il recente articolo di Andrea Vestrucci qui su Appunti ha spiegato in termini teorici il problema di fondo: i large language model (LLM) attuali sono basati su reti neurali, puramente probabilistiche, che male apprendono leggi “dure” come quelle della logica, della matematica, della fisica nello spazio infinito della realtà.
Per capire delle regole, servirebbe proprio una IA che capisca cosa è una regola a livello fondamentale, così come oggi le reti neurali sono interamente fondate sul concetto di probabilità che un segnale passi da un neurone all’altro.
I precedenti tentativi di costruire sistemi rule-based sono stati abbandonati negli anni Otttanta, ma anche le reti neurali furono abbandonate nel cestino della storia informatica.
Hardware più potente e approcci innovativi le hanno portate nel cuore della rivoluzione digitale attuale: vale sempre la pena seguire con attenzione gli sforzi profusi in aree precedentemente abbandonate.
(Estratto dal blog Appunti di Stefano Feltri)