Intelligenza Artificiale - La pandemia ha eluso i sistemi predittivi di intelligenza artificiale

Intelligenza artificiale per la sanità: meno cattedrali e più ponti. Intervista a Federico Cabitza

In questi giorni ho avuto il piacere di scambiare due chiacchiere con Federico Cabitza, professore associato di Interazione Uomo-Machina per il Corso di Laurea in Informatica e docente titolare di Data Visualization per il Corso di Laurea Magistrale in Data Science presso il Dipartimento di Informatica, Sistemistica e Comunicazione dell’Università degli Studi di Milano-Bicocca. In quanto consulente di vari ospedali (Humanitas di Rozzano, Gavazzeni di Bergamo, il San Raffaele e l’Istituto Ortopedico Galeazzi di Milano) può essere annoverato a ragione tra i maggiori esperti di tecnologie di intelligenza artificiale applicate al settore sanitario italiano.

A giugno è uscito lo studio The Elephant in the Machine: Proposing a New Metric of Data Reliability and its Application to a Medical Case to Assess Classification Reliability che propone una nuova metrica per valutare l’affidabilità di un modello predittivo di machine learning.

Luca Sambucci: Potresti spiegare in cosa consiste lo studio “Elephant in the machine“?

Federico Cabitza: In sostanza proponiamo una nuova metrica per valutare la qualità dei dati con cui si addestra un modello predittivo di machine learning o, se vuoi, la sua affidabilità. Nel farlo cerchiamo anche di convincere chi ci legge dell’importanza di questa valutazione: sosteniamo infatti che per uno sviluppatore di modelli predittivi (o data scientist) limitarsi alla valutazione della qualità del modello predittivo in termini della semplice “accuratezza” (e qualunque altra metrica basata sul conteggio degli errori, come chiarirò più avanti) è pericoloso e irresponsabile, soprattutto se tali modelli devono essere usati nel mondo reale per applicazioni che possono avere un impatto sulla vita delle persone. Infatti, un modello perfettamente accurato e buono a replicare dati sporchi, non attendibili, cioè ciò che gli ingegneri chiamano “garbage” (spazzatura), non dovrebbe essere essere preso in considerazione in processi decisionali complessi, soprattutto in ambiti delicati come la medicina, in cui noi operiamo.

Quindi, per sviluppare la nostra nuova metrica, abbiamo cercato di rispondere alla domanda: come possiamo misurare il grado di affidabilità di un insieme di dati? Abbiamo pensato di collegare questa valutazione a quanto è degno di fiducia chi li ha prodotti, cioè chi ha generato le annotazioni del cosiddetto ground truth o “verità di riferimento”. Per farlo, adottiamo un modello diverso da quelli sviluppati finora, un modello che ricalca come noi umani tendiamo a fidarci di una persona: valutiamo la sua competenza e ci basiamo su quanto questi si dice sicuro dei suoi giudizi. I modelli tradizionali adottano un modello dell’influenza del caso nell’accordo tra annotatori (rater) basato sull’intera distribuzione di dati, mentre noi consideriamo la probabilità che due persone possano aver concordato su una etichetta “sparando a caso”: per questo motivo la nostra metrica è più solida delle altre rispetto a noti paradossi e permette di calcolare l’attendibilità di singoli record (mentre le altre metriche possono farlo solo su un insieme di record, possibilmente numeroso).

LS: Quindi ogni volta che leggiamo le percentuali di accuratezza in una ricerca che applica il machine learning alla medicina, dobbiamo considerarle più basse rispetto a quelle effettivamente riportate?

FC: Sì, perché avere un ground truth accurato al 100% è pressoché impossibile, soprattutto se questo è generato attraverso le interpretazioni di fenomeni complessi da parte di esseri umani che, pur esperti, sono pur sempre fallibili. Nel nostro contributo mostriamo anche un nomogramma, cioè un diagramma che permette di calcolare la “vera” accuratezza di un modello di machine learning, aggiustato per la attendibilità dei dati di addestramento.

Nomogramma

Nell’ambito dei modelli ad alte prestazioni che sono sviluppati di questi tempi, l’impatto della qualità del training set sulle vere prestazioni è di circa il 6-7 per cento. Si noti che i migliori gruppi di ricerca competono ogni anno per migliorare lo stato dell’arte con scarti nell’ordine di decimali di singoli punti percentuali. Insomma, la maggior parte dei data scientist preferisce ignorare l’elefante che si trova nella loro stanza piuttosto che chiedersi come poter valutare e migliorare la qualità dei dati su cui basano i propri modelli predittivi.

LS: Perché parlate di “elefante”? Si tratta forse di un problema che tutti già conoscevano?

FC: Sì, gli inglesi usano l’espressione “elefante nella stanza” (elephant in the room) per indicare una cosa che, per quanto sia considerata vera e ovvia da tutti, viene più o meno coscientemente ignorata o minimizzata. Nel caso specifico, noi parliamo di “elephant in the machine” perché pensiamo che discutere seriamente, e costruttivamente, di attendibilità del ground truth (che in molti contesti, anche delicati come la medicina, è solitamente molto più bassa di quello che spereremmo) farebbe mettere in discussione molti dei risultati ottenuti in contesti sperimentali e di laboratorio. Molti temono che così facendo l’attenzione dei media (e degli investitori) si sposterebbe su altri ambiti, quali quelli della governance dei dati, e su attività relativamente periferiche rispetto allo sviluppo di modelli di machine learning, come lo sviluppo e diffusione di standard di interoperabilità, la raccolta dati in contesti di collective intelligence, e la data curation.

D’altro canto, non capisco come una intera comunità possa dare per scontato che un dato di riferimento sia accurato al 100% se questa assunzione in molti ambiti è semplicemente irrealistica e illusoria: non dedicare adeguata attenzione a come valutare e migliorare i dati di addestramento di sistemi di machine learning può essere una scelta “greedy”, che sul lungo periodo non può che portare un danno di credibilità all’impresa scientifica e tecnologica del machine learning, oltre che al rischio molto concreto di invitare le persone ad affidarsi eccessivamente a modelli che sono impropriamente considerati molto accurati. È possibile fare ricerca anche su questi aspetti. Ad esempio, noi a brevissimo pubblicheremo un lavoro che propone dei metodi alternativi al “voto di maggioranza” per identificare la risposta più corretta quando un insieme di valutatori (rater in inglese) si esprime senza aver raggiunto consenso unanime riguardo alla annotazione di un certo insieme di casi: abbiamo chiamato questi metodi “reductions” (perché un insieme di annotazioni sono ridotte ad una sola etichettatura target) e ce ne sono davvero di moltissimi tipi, alcuni dei quali ispirati anche a metodi di votazione concepiti nei secoli scorsi ed altri che invece fanno riferimento alle ultime scoperte in ambito di intelligenza collettiva.

Insomma, mentre in un contributo il nostro messaggio è piuttosto deprimente, perché abbiamo sostenuto che spesso ci illudiamo sulla accuratezza di molti modelli di intelligenza artificiale in medicina (in ambito supervisionato), in un altro contributo abbiamo cercato di contribuire positivamente a questo stato di cose, fornendo dei metodi computazionali per migliorare la qualità del ground truth sulla base di quello che è ragionevole avere: e cioè l’opinione di un insieme ristretto di esperti di dominio che analizzano un certo numero di casi “tipo”.

LS: Credi che lo stesso problema si applichi ad altre ricerche sul machine learning, anche se non in ambito medico?

FC: Certo! Qualunque dominio applicativo dove il ground truth è generato da parte di esperti umani che devono valutare situazioni o casi di non banale interpretazione ricade nel perimetro del nostro discorso: selezione delle risorse umane, valutazione del rischio di recidiva o fuga/inquinamento delle prove, valutazione del rischio di insolvenza, insomma, quasi tutti quegli ambiti in cui le decisioni automatizzate o supportate dal machine learning possono avere un effetto giuridicamente rilevante e riguardare condizioni che un tempo si definivano “sensibili”.

LS: Ci spieghi meglio come funziona la nuova metrica che proponete?

FC: La nostra metrica si basa su quella più semplice e intuitiva (che non sconta l’accordo dovuto al caso) che per ogni “istanza” o “oggetto” conta la frazione di coppie di esperti che sono in accordo tra di loro e ne fa la media su tutti gli oggetti. La nostra metrica modifica questa formula andando a pesare queste coppie di accordi: ogni coppia è pesata per il prodotto delle quantità che rappresentano il grado di convinzione dei due rispettivi esperti, opportunamente normalizzato. La giustificazione di questa definizione (e il fattore di normalizzazione) è di natura probabilistica, usando il Teorema di Bayes per calcolare la probabilità (condizionata al fatto che abbiamo osservato un accordo) che l’accordo osservato non sia dovuto al caso. Un vantaggio evidente della nostra metrica è che può essere applicata anche a livello di singola istanza. Di seguito riportiamo appunto le formule per il nostro indicatore di attendibilità bilanciata (weighted reliability, pho), definito a livello di riga e di intero dataset:

weighted reliability, pho

LS: Grazie ai tuoi progetti di intelligenza artificiale in ambito medico lavori a stretto contatto con il personale sanitario. Qual è secondo te la loro inclinazione verso i nuovi tool di intelligenza artificiale? C’è più speranza o scetticismo?

FC: È molto difficile generalizzare: come in ogni contesto, la predisposizione delle persone nei riguardi delle nuove tecnologie dipende da aspettative, conoscenze, competenze e anche preferenze e idiosincrasie personali, che non sono sempre del tutto legate a ragionamenti espliciti o razionali: esistono numerosi modelli (chiamati di prontezza, accettazione o adozione) che operalizzano questi fattori e che comprendono numerosi elementi di contesto, quali anche l’età, ma io in ambito medico metterei dentro anche la specialità medica.

Ma tra gli estremi della speranza e dello scetticismo, io direi che il sentimento che ho trovato essere più diffuso (lo dico da una posizione di privilegio, perché non lavoro solo al Galeazzi e al San Raffaele, due IRCCS tra i più importanti in Italia, ma faccio spesso eventi di formazione e divulgazione a pubblici medici molto eterogenei) direi piuttosto la curiosità. Il problema è che noi informatici non sappiamo ancora presentare adeguatamente i risultati delle nostre ricerche. Prendiamo ad esempio l’accuratezza e qualsiasi metrica si basi sul tasso di errore di un modello predittivo. Ai medici non interessa questo dato, buono solo per persone che pensano che tutti gli errori siano uguali. In medicina non lo sono. È quindi importante sviluppare metriche che siano più precise e radicate nelle preferenze ed esigenze dei medici in prima linea.

Noi ad esempio stiamo lavorando ad una metrica che permette di pesare diversamente falsi negativi e falsi positivi, a seconda delle esigenze intrinseche al compito classificatorio che il modello dovrebbe supportare (ad esempio, lo screening deve essere più specifico, la diagnosi specialista deve essere più sensibile), e casi facili e difficili (ad esempio, in un setting di cura primaria è più importante essere accurati sui casi facili; in un setting di cura secondaria o terziaria sui casi difficili oppure su quelli rari). Ma come valutare la difficoltà dei casi? Come valutare la interpretabilità di un modello di machine learning? Come valutarne la utilità e la costo-efficacia? Questi sono (alcuni degli) ambiti di ricerca che la comunità scientifica sta in larga parte trascurando, alimentando nei medici l’idea che molti informatici, anche di successo nelle loro comunità specialistiche, non stiano facendo altro che applicare quello che sanno fare, il machine learning ora, a dati medici, senza però conoscerne le peculiarità e le criticità dei contesti lavorativi che producono tali dati, e che quindi non stiano davvero sviluppando intelligenza artificiale medica e per i medici. Nel mio recente editoriale chiamo questo fenomeno la “forra” che divide development e operation. Ecco, per riuscire a trasferire valore e portarlo dai nostri laboratori al “punto di cura” dove lavorano i medici per il benessere dei loro pazienti, forse dovremmo costruire meno cattedrali e castelli (spesso solo dei bellissimi villaggi Potemkin), e invece costruire più ponti e più solidi. Questo lo sosterrò anche nel mio prossimo keynote al CD-MAKE 2020 Workshop on explainable Artificial Intelligence il prossimo Agosto.

Forra della fiducia (Cabitza)

LS: Qualche giorno fa in un tweet ti sei espresso contro l’assunto che lo sviluppo di software AI equivalga alla creazione di soluzioni, arrivando ad augurarti che tale asserzione venga considerata socialmente inammissibile. Il contesto del tweet riguardava una discussione sui ricercatori “mainstream” (maschi, bianchi, eterosessuali) che cercano di applicare le loro “soluzioni” tecnologiche a qualsiasi problema di bias, spesso peggiorando la situazione. Ci potresti spiegare meglio questo tuo pensiero?

FC: La tecnologia viene spesso proposta come una soluzione a dei problemi che riguardano la sfera sociale e culturale di organizzazioni o comunità. Spesso, però, come ha argomentato ad esempio Tenner, le soluzioni tecniche non ottengono i risultati sperati o, peggio, introducono nuovi problemi o peggiorano quelli esistenti: è la cosiddetta Cobra AI di cui parlo in un capitolo di prossima pubblicazione per i tipi della MIT Press.

Il soluzionismo tecnologico, come lo chiama Evgenij Morozov, o il tecnosciovinismo, come lo chiama Meredith Broussard, possono quindi fare più danni del problema stesso, anche perché distrae da soluzioni magari più semplici ma anche più efficaci, o attira finanziamenti e fondi che sarebbero stati spesi in modo più appropriato perseguendo altre strade e opzioni. L’unica soluzione a questa “forma mentis” filo-tecnologica, propugnata da chi non ha una comprensione adeguata della complessità che è tipica delle situazioni sociali in cui un problema si presenta o emerge, è allontanare chi dimostra questa superficialità da quei consessi in cui gli esperti sono tenuti a sviluppare politiche di intervento alternative e decidere quale opzione intraprendere, e la diffusione di una maggiore diffidenza nei confronti di chi pensa che la tecnologia, e in particolare ciò che può essere definito come intelligenza artificiale, sia la soluzione, anziché parte del problema (o meglio, parte di uno specifico modo di vedere le cose complesse, imprevedibili e difficilmente controllabili come un problema).

È importante che ogni volta che qualcuno propone l’intelligenza artificiale come parte della soluzione qualcuno si senta legittimato a chiedere a questa persona: cosa vuoi automatizzare? (un processo, un compito, una decisione); perché vuoi automatizzarlo? (maggiore efficienza, risparmi, efficacia, soddisfazione, sostenibilità umana, sociale o ambientale?). Nell’interesse di chi vuoi farlo? E, da ultimo, è importante che si ottenga una risposta non scontata a quella che ora è solo una domanda ironica che spesso si pongono le persone disilluse di un certo modo di sviluppare tecnologie digitali e consapevoli delle loro potenziali conseguenze inattese: “cosa mai potrebbe andare storto?” (What Could Possibly Go Wrong?)

Qualcosa andrà sempre storto: e se potrà farlo allora, prima o poi (cf. Murphy’s Law), lo farà. Spetta a noi capire come minimizzare la probabilità che l’innovazione sviluppi delle conseguenze inattese, il loro impatto sulla vita di utenti e cittadini e, soprattutto, evitare che facciano del male a chi non ha molto da guadagnare da essa.

LS: Infine, c’è qualche domanda che non ti ho fatto ma che ti avrei dovuto fare?

FC: Eh tante, ma annoierei te e i tuoi pazienti lettori. La chiudo qui e ti ringrazio dell’interesse per il mio lavoro e per i temi di ricerca che da qualche anno tratto insieme ai miei colleghi (tra cui ricordo Davide Ciucci, con cui dirigo il laboratorio MUDI (Modeling Uncertainty, Decisions and Interaction), del dipartimento di informatica dell’Università degli Studi di Milano-Bicocca, e due nostri ottimi studenti di dottorato, Andrea Campagner e Andrea Seveso, senza di loro molte delle idee che ti ho presentato o sarebbero rimaste in un cassetto o, cosa ancora più importante, non avrebbero la forma con cui le presentiamo ora alla comunità scientifica e professionale delle persone interessate all’evoluzione dell’Intelligenza Artificiale Medica basata sui dati.

Federico Cabitza ha conseguito la laurea in Ingegneria Informatica al Politecnico di Milano nel 2001 con una tesi su Intelligenza Artificiale Subsimbolica sotto la supervisione di Marco Somalvico. Dal 2001 ha lavorato come analista software nel settore privato, fino al 2004 come dipendente e fino al 2011 come consulente. Nel febbraio 2007 ha conseguito il dottorato di ricerca in informatica con una tesi su modelli e architetture computazionali a supporto del lavoro collaborativo in ambito aziendale sotto la supervisione di Carla Simone. Assunto come ricercatore nel 2011 dall’Università degli Studi di Milano-Bicocca, è attualmente professore associato presso il Dipartimento di Informatica del medesimo Ateneo, dove è titolare degli insegnamenti di Interazione Uomo-Macchina, Sistemi Informativi, Interaction Design e Data Visualization erogati nei corsi di Laurea di Informatica e Data Science. Insegna anche Interazione Uomo-AI al corso di dottorato in Informatica. Dal 2016 collabora con la Direzione Scientifica dell’IRCCS Istituto Ortopedico Galeazzi di Milano per la definizione di modelli predittivi basati su Machine Learning. Attualmente sta conducendo diversi studi con il servizio di Medicina di Laboratorio dell’IRCCS Ospedale San Raffaele in ambito COVID-19. E’ autore di più di 130 pubblicazioni scientifiche, molte delle quali relative a informatica medica e sistemi a supporto della collaborazione, della gestione della conoscenza e del processo decisionale in ambito ospedaliero.

Cabitza, F., Locoro, A., Alderighi, C., Rasoini, R., Compagnone, D., & Berjano, P. (2019). The elephant in the record: on the multiplicity of data recording work. Health informatics journal, 25(3), 475-490.

Cabitza, F., Campagner, A., Albano, D., Aliprandi, A., Bruno, A., Chianca, V., … & Messina, C. (2020). The Elephant in the Machine: Proposing a New Metric of Data Reliability and its Application to a Medical Case to Assess Classification Reliability. Applied Sciences, 10(11), 4014.

Campagner A, Sconfienza L, Cabitza F. H-Accuracy, an Alternative Metric to Assess Classification Models in Medicine. Stud Health Technol Inform. 2020;270:242-246. doi:10.3233/SHTI200159

Cabitza, F., Campagner, A., & Balsano, C. (2020). Bridging the “last mile” gap between AI implementation and operation:“data awareness” that matters. Annals of Translational Medicine, 8(7).

Cabitza, F. Campagner A., Del Zotti, F., Ravizza, A. Sternini F. (2020) All You Need Is Higher Accuracy? On The Quest For Minimum Acceptable Accuracy For Medical Artificial Intelligence. Proceedings of eHealth, the 12th International Conference on e-Health. 21 – 23 July 2020

In corso di pubblicazione:

Campagner, A., Ciucci, D., Svensson C.M., Figge, M.T., Cabitza F. (2020) Ground Truthing From Multi-Rater Labelling With Three-way Decisions and Possibility Theory

Cabitza F., (2020) Cobra AI: exploring some unintended consequences of our most powerful technology. In: Machines We Trust Getting Along with Artificial Intelligence. MIT Press.

2020-07-15

È finalmente online nella sua forma definitiva la Strategia italiana per l’intelligenza artificiale (pdf) redatta dalla task force di esperti selezionati dal Ministero dello sviluppo economico. Una lunga gestazione, dovuta non solo allo stop per il Covid-19, ma anche alla procedura di consultazione pubblica che ha visto una partecipazione multi-stakeholder alle proposte del gruppo di esperti.

La strategia italiana entra nel solco di quella europea, che vuole una intelligenza artificiale “affidabile“, che sappia ovvero conquistare la fiducia dei cittadini grazie a caratteristiche come trasparenza e robustezza. Il Covid-19 tuttavia ha fatto comprendere come oltre al “solito” rilancio della competitività del sistema produttivo italiano, il nostro Paese abbia anche bisogno di un deciso aumento della resilienza di tutto il tessuto – sociale, amministrativo, imprenditoriale – che la aiuti a superare nuove eventuali pandemie, così come minacce di altro tipo. La combinazione di tecnologie come l’AI, 5G, big data, Internet of Things, possono e devono assisterci nel fronteggiare l’emergenza sociale ed economica post-pandemia, aiutarci a prevenire o perlomeno mitigare nuove emergenze e – in ultima analisi – consentire di migliorare la vita delle persone. Questo secondo me è il fine ultimo dell’intelligenza artificiale “umano-centrica”, che a mio avviso la strategia italiana cerca di creare.

Il documento è diviso in tre parti (se non si considera il capitolo introduttivo che spiega cos’è e cosa non è l’AI):

un’analisi del mercato e dei trend globali, con focus particolari sull’Europa e sull’Italia. Ovviamente offre uno spaccato fermo a una certa data, diverrà meno attuale man mano che andiamo avanti nel tempo, ma ha lo scopo di informare il lettore sullo stato delle cose e preparare la cornice in cui si inseriranno le proposte della strategia;
un elenco dei presupposti e per certi versi dei criteri principali che hanno guidato il gruppo nella formulazione delle proposte: umanesimo (gli esseri umani al centro), affidabilità e sostenibilità. Elementi distintivi “senza tempo” che dovrebbero guidare le strategie attuali e future;
le 82 proposte o raccomandazioni di policy.

Riguardo alle raccomandazioni, in questa sede segnalerò quelle secondo me più rilevanti. Senza nulla togliere al resto delle indicazioni ovviamente, ma ricalcare la strategia punto per punto sarebbe stato inutile. Per farvi un’idea completa ve ne consiglio la lettura.

Raccomandazione 1
Oltre a chiedere che l’Italia sia presente a tutti i tavoli che contano, gli esperti evidenziano quattro iniziative da seguire con attenzione: 1) la Global Partnership on AI, un’organizzazione ospitata dall’OCSE, promossa da alcuni governi del G7 ma estesa anche altri Paesi (ne parlavo qualche settimana fa perché gli USA la vorrebbero usare in funzione anti-Cina); 2) AI Watch, un progetto della Commissione Europea gestito congiuntamente dal Joint Research Centre e DG CONNECT (fra l’altro, AI Watch ha pubblicato il più completo documento di definizione e tassonomia dell’AI che io abbia mai visto); 3) la Digital Skills and Jobs Coalition, un progetto sempre dell’Unione Europea che mira ad aggiornare le competenze dei lavoratori europei per far fronte alle richieste del mercato e 4) GAIA-X, il tentativo strategico di creare un Cloud tutto europeo (ricordo che le risorse computazionali nel Cloud sono essenziali per addestrare modelli di deep learning sempre più performanti).

Curiosamente, le stesse indicazioni sono ripetute per sommi capi anche nella Raccomandazione 21.

Raccomandazione 3
In linea con i trend soprattutto europei, si afferma il primato dell’essere umano sulla tecnologia AI, che deve essere al servizio dell’uomo e non viceversa (il documento si esprime meglio, ma la sostanza è questa).

Raccomandazione 5
Si consiglia di puntare all’embedded AI (o edge AI), ovvero a quei sistemi di intelligenza artificiale presenti direttamente sul dispositivo. Per fare un esempio, l’AI all’interno di un drone che elabora le immagini della videocamera e prende decisioni in autonomia sfrutta un sistema at the edge, che si differenzia invece da un sistema che dal nostro ipotetico drone manda i dati a un computer centrale o a un server sul Cloud, dove vengono prese le decisioni che quindi tornano al drone sotto forma di istruzioni. Per il gruppo di esperti le soluzioni edge sono più adatte al sistema-Italia, forse – e questa è una mia supposizione – perché la concorrenza dei colossi USA e cinesi sui sistemi centralizzati è difficile da battere.

D’altra parte però bisogna anche dire che i sistemi embedded rappresentano quella classe di problemi (fare tanto con poche risorse) dove il talento e l’inventiva tipici degli ingegneri italiani possono esprimersi al meglio.

Raccomandazione 10
Realizzare un “CERN per l’AI“, un centro di eccellenza per il coordinamento delle iniziative europee e che definisca un modello di sviluppo delle tecnologie di intelligenza artificiale. Ne parlava anche Emanuela Girardi (co-autrice del documento) nell’intervista che mi ha rilasciato a maggio.

Raccomandazione 12
Creare una “AI challenge” nazionale presso le scuole superiori, sulla falsariga della CyberChallenge – organizzata dal CINI – che si è dimostrata molto utile per creare interesse verso la sicurezza informatica, oltre che per far emergere giovani eccellenze italiane.

Fra l’altro, va in questa direzione anche la Raccomandazione 45, che suggerisce di creare sfide su progetti specifici che coinvolgano il mondo della ricerca e dell’industria.

Raccomandazione 16
Una forte attenzione all’up-skilling e al re-skilling dei lavoratori. Un passaggio obbligato per consentire a un numero crescente di persone l’accesso ai lavori del futuro, senza il quale in molti rischieranno di trovarsi fuori dal mercato del lavoro. Per gli esperti è necessario creare un vero e proprio diritto alla formazione e all’aggiornamento delle competenze, con particolare attenzione a quei settori “destinati al declino” (proprio così nel testo, schietto ed efficace).

Raccomandazione 29
L’Italia dovrebbe adottare il Trustworthy AI Impact Assessment (TAIA) attualmente allo studio in Europa (qui una versione pilota), come strumento di risk assessment. In pratica si chiede agli “attori” (presumo si intenda chi sviluppa, integra o usa tecnologie AI, anche se nel documento non si sbilanciano a fare un elenco) di farsi parte diligente nel prendere in considerazione gli impatti negativi, contribuendo “in misura proporzionata al rischio generato” a eseguire un’analisi del rischio. Questa, come altre raccomandazioni a seguire, cercano di definire una giusta distribuzione di responsabilità, tema molto caldo oggi nell’applicazione di tecnologie AI nell’industria e nella società.

Raccomandazione 38
Gli esperti nominati dal MiSE raccomandano la creazione di un Istituto Italiano per l’Intelligenza Artificiale (IIIA o I3A). Un centro per la ricerca che diventi il “faro” dello sviluppo AI in Italia e che si faccia inoltre carico del trasferimento tecnologico. Descrivendo in particolare questa caratteristica, Emanuela Girardi tempo fa ha affermato che “L’IIIA dovrebbe inoltre possedere un “ramo operativo” per trasferire alle aziende e alla pubblica amministrazione le applicazioni pratiche di AI, favorendo, al contempo, lo sviluppo di soluzioni concrete volte alla gestione delle emergenze come quella del Covid-19 che stiamo vivendo.”

L’istituto dovrebbe impiegare un migliaio di persone per essere simile ad altri analoghi centri esteri (ma negli allegati al documento si ipotizzano anche 1300/1400 dipendenti), con circa 600 persone presso la sede centrale e una decina di centri sparsi sul territorio che si raccordino con le università e istituti locali. Per essere operativa una struttura del genere necessiterebbe a regime (dal 5. anno in poi) di un finanziamento a lungo termine di 80 milioni di Euro all’anno. Secondo gli esperti questo istituto dovrebbe essere essenzialmente la prima cosa da fare (R79) e dovrebbe ovviamente essere dotato di un’infrastruttura di High Performance Computing (R82).

Raccomandazioni 46, 47 e 48
Sono tutte indicazioni riguardanti il potenziamento degli investimenti in ambito AI, accelerando il Fondo Nazionale per l’Innovazione (R46), aumentando gli strumenti pubblici di supporto agli investimenti (R47) e rafforzando il sostegno pubblico-privato al venture capital (R48). Più in avanti, nella Raccomandazione 79, si suggerisce anche di utilizzare la dotazione del Fondo sul Capitale Immateriale, in particolare per la creazione dell’I3A.

Raccomandazione 53
Si consiglia l’istituzione di una Cabina di Regia interministeriale (anche qui vedo analogie con quanto si è fatto in ambito cybersecurity) che svolga funzioni di supervisione, sviluppo sostenibile e coordinamento delle iniziative di ricerca, innovazione e politica industriale. Verso la fine del documento, in particolare nelle Raccomandazioni 77 e 78, si offrono altri spunti sui temi che tale cabina di regia dovrebbe trattare, nonché un termine ideale di 18 mesi (R81) per arrivare alla sua costituzione.

Raccomandazioni dalla 55 alla 68
Una serie di raccomandazioni incentrate sui dati, vero e proprio “carburante” dei modelli di intelligenza artificiale. Si suggeriscono miglioramenti e ottimizzazioni sulla raccolta e la gestione dei dati, attribuendo allo Stato la proprietà dei dati raccolti dalla Pubblica Amministrazione, fornendo linee guida sugli Open Data, mantenendo sul territorio europeo (oppure, ove possibile, nazionale) i dati usati per addestrare i modelli AI. La Raccomandazione 61 suggerisce poi a varie categorie di lavoratori occupati e non, inclusi i destinatari del Reddito di Cittadinanza, la possibilità di essere impiegati per digitalizzare e/o annotare i dati per la PA (l’annotazione è quell’attività in cui esseri umani segnano o descrivono dati – come ad esempio un’immagine – per addestrare i classificatori di intelligenza artificiale).

Raccomandazioni dalla 69 alla 75
Anche qui abbiamo raccomandazioni che catturano un tema più ampio, ovvero quello dell’AI sostenibile, in pieno allineamento con quelli che sono gli indirizzi europei. Una regolamentazione presente che garantisca lo sviluppo sostenibile (R69), magari per il settore energetico (R73), o per il supporto ai disabili (R74) e alle fasce più svantaggiate (R75). Una governance aiutata da strumenti (R70) e da finanziamenti specifici (R72), che posizioni l’Italia nel contesto internazionale fra i leader dell’AI sostenibile (R71).

Ho tralasciato, non per mancanza di importanza ma perché abbastanza sparpagliate per il documento, le molte raccomandazioni a creare corsi e momenti di formazione sull’intelligenza artificiale aperti a tutti: studenti, insegnanti, lavoratori, cittadini. Indicazioni importanti perché la corretta formazione degli Italiani rappresenta la spina dorsale su cui poggeranno tutti gli elementi della strategia.

Chiude il documento un allegato con gli investimenti da sostenere per implementare la strategia, con l’istituto che costerebbe a regime €81.773.040 l’anno, comunque solo una porzione dei 232 milioni di Euro annui (di cui una parte privati) che l’Italia dovrà investire per applicare le raccomandazioni degli esperti.

Sulla strategia italiana ho raccolto l’intervento di Piero Poccianti, Presidente dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA), che ha affermato: “Finalmente anche l’Italia ha un documento di strategia sull’Intelligenza Artificiale. Era rimasto uno dei pochissimi Paesi a non rispondere alla call europea su questo tema. La Strategia italiana è un ottimo documento, parte dalla strategia europea che propone lo sviluppo di tecnologie di intelligenza artificiale affidabili e al servizio dell’uomo e va oltre promuovendo l’utilizzo di queste tecnologie per realizzare un nuovo modello di società in linea con gli obiettivi di sviluppo sostenibile dell’agenda 2030 delle Nazione Unite. Adesso che abbiamo la strategia è giunto il momento di realizzarla senza ulteriori ritardi, serve coniugare l’Intelligenza Umana e quella Artificiale per fornire una soluzione ai tanti problemi che affliggono il nostro Paese. Ora più che mai.“

Faccio mie queste considerazioni, evidenziando la necessità urgente di mettersi al lavoro per evitare che questo importante documento venga messo nel cassetto. Gli investimenti necessari non sono irrisori, ma se l’Italia perderà anche questo treno i costi che saremo costretti a pagare e che faremo pagare alle prossime generazioni saranno molto più alti.