Se non leggi bene questa e-mail aprila nel tuo browser
Logo Notizie.AI
Bollettino settimanale sull'intelligenza artificiale

Buon venerdì!

Essere un appassionato di intelligenza artificiale non significa difenderla a spada tratta in ogni occasione. Tutt'altro: se penso che una tecnologia o una serie di tecnologie aspiri all'obiettivo di migliorare il mondo, non posso che essere molto critico dei suoi scivoloni.

Nel pezzo iniziale di questa newsletter mi lamento di come i modelli predittivi di deep learning non siano riusciti a "passare l'esame" in occasione di un evento come la pandemia da Covid-19. Non che mi aspettassi cose diverse, intendiamoci, ma questa prima batosta dovrà servirci da lezione per essere pronti a un nuovo, possibile e futuro "secondo appello". Un nuovo evento drammatico e imprevedibile, una "variazione repentina dei dati", come la vedranno gli algoritmi, che questa volta l'intelligenza artificiale dovrà essere in grado di gestire, mitigare, magari addirittura risolvere.

Poi se a questo si arriverà con un ritorno al simbolismo, con un miglioramento della contestualizzazione del machine learning o con altre scoperte cognitive saranno menti molto più abili della mia a stabilirlo. L'importante è che si faccia.

Come sempre siete liberi di mandarmi commenti e segnalazioni contattandomi sui social (Twitter, Facebook, LinkedIn) o via e-mail con una risposta a questo messaggio.

Buona lettura!
Luca Sambucci

P.S.
Se vi hanno mandato questo messaggio in forward, potete iscrivervi qui.

---
Intelligenza artificiale per la sanità: meno cattedrali e più ponti. Intervista a Federico Cabitza
Federico Cabitza

In questi giorni ho avuto il piacere di scambiare due chiacchiere con Federico Cabitza, professore associato di Interazione Uomo-Machina per il Corso di Laurea in Informatica e docente titolare di Data Visualization per il Corso di Laurea Magistrale in Data Science presso il Dipartimento di Informatica, Sistemistica e Comunicazione dell’Università degli Studi di Milano-Bicocca. In quanto consulente di vari ospedali (Humanitas di Rozzano, Gavazzeni di Bergamo, il San Raffaele e l’Istituto Ortopedico Galeazzi di Milano) può essere annoverato a ragione tra i maggiori esperti di tecnologie di intelligenza artificiale applicate al settore sanitario italiano.

A giugno è uscito lo studio The Elephant in the Machine: Proposing a New Metric of Data Reliability and its Application to a Medical Case to Assess Classification Reliability che propone una nuova metrica per valutare l’affidabilità di un modello predittivo di machine learning.

Luca Sambucci: Potresti spiegare in cosa consiste lo studio “Elephant in the machine“?

Federico Cabitza: In sostanza proponiamo una nuova metrica per valutare la qualità dei dati con cui si addestra un modello predittivo di machine learning o, se vuoi, la sua affidabilità. Nel farlo cerchiamo anche di convincere chi ci legge dell’importanza di questa valutazione: sosteniamo infatti che per uno sviluppatore di modelli predittivi (o data scientist) limitarsi alla valutazione della qualità del modello predittivo in termini della semplice “accuratezza” (e qualunque altra metrica basata sul conteggio degli errori, come chiarirò più avanti) è pericoloso e irresponsabile, soprattutto se tali modelli devono essere usati nel mondo reale per applicazioni che possono avere un impatto sulla vita delle persone. Infatti, un modello perfettamente accurato e buono a replicare dati sporchi, non attendibili, cioè ciò che gli ingegneri chiamano “garbage” (spazzatura), non dovrebbe essere essere preso in considerazione in processi decisionali complessi, soprattutto in ambiti delicati come la medicina, in cui noi operiamo.

Quindi, per sviluppare la nostra nuova metrica, abbiamo cercato di rispondere alla domanda: come possiamo misurare il grado di affidabilità di un insieme di dati? Abbiamo pensato di collegare questa valutazione a quanto è degno di fiducia chi li ha prodotti, cioè chi ha generato le annotazioni del cosiddetto ground truth o “verità di riferimento”. Per farlo, adottiamo un modello diverso da quelli sviluppati finora, un modello che ricalca come noi umani tendiamo a fidarci di una persona: valutiamo la sua competenza e ci basiamo su quanto questi si dice sicuro dei suoi giudizi. I modelli tradizionali adottano un modello dell’influenza del caso nell’accordo tra annotatori (rater) basato sull’intera distribuzione di dati, mentre noi consideriamo la probabilità che due persone possano aver concordato su una etichetta “sparando a caso”: per questo motivo la nostra metrica è più solida delle altre rispetto a noti paradossi e permette di calcolare l’attendibilità di singoli record (mentre le altre metriche possono farlo solo su un insieme di record, possibilmente numeroso).

LS: Quindi ogni volta che leggiamo le percentuali di accuratezza in una ricerca che applica il machine learning alla medicina, dobbiamo considerarle più basse rispetto a quelle effettivamente riportate?

FC: Sì, perché avere un ground truth accurato al 100% è pressoché impossibile, soprattutto se questo è generato attraverso le interpretazioni di fenomeni complessi da parte di esseri umani che, pur esperti, sono pur sempre fallibili. Nel nostro contributo mostriamo anche un nomogramma, cioè un diagramma che permette di calcolare la “vera” accuratezza di un modello di machine learning, aggiustato per la attendibilità dei dati di addestramento.

Nomogramma

Nell’ambito dei modelli ad alte prestazioni che sono sviluppati di questi tempi, l’impatto della qualità del training set sulle vere prestazioni è di circa il 6-7 per cento. Si noti che i migliori gruppi di ricerca competono ogni anno per migliorare lo stato dell’arte con scarti nell’ordine di decimali di singoli punti percentuali. Insomma, la maggior parte dei data scientist preferisce ignorare l’elefante che si trova nella loro stanza piuttosto che chiedersi come poter valutare e migliorare la qualità dei dati su cui basano i propri modelli predittivi.

LS: Perché parlate di “elefante”? Si tratta forse di un problema che tutti già conoscevano?

FC: Sì, gli inglesi usano l’espressione “elefante nella stanza” (elephant in the room) per indicare una cosa che, per quanto sia considerata vera e ovvia da tutti, viene più o meno coscientemente ignorata o minimizzata. Nel caso specifico, noi parliamo di “elephant in the machine” perché pensiamo che discutere seriamente, e costruttivamente, di attendibilità del ground truth (che in molti contesti, anche delicati come la medicina, è solitamente molto più bassa di quello che spereremmo) farebbe mettere in discussione molti dei risultati ottenuti in contesti sperimentali e di laboratorio. Molti temono che così facendo l’attenzione dei media (e degli investitori) si sposterebbe su altri ambiti, quali quelli della governance dei dati, e su attività relativamente periferiche rispetto allo sviluppo di modelli di machine learning, come lo sviluppo e diffusione di standard di interoperabilità, la raccolta dati in contesti di collective intelligence, e la data curation.

D’altro canto, non capisco come una intera comunità possa dare per scontato che un dato di riferimento sia accurato al 100% se questa assunzione in molti ambiti è semplicemente irrealistica e illusoria: non dedicare adeguata attenzione a come valutare e migliorare i dati di addestramento di sistemi di machine learning può essere una scelta “greedy”, che sul lungo periodo non può che portare un danno di credibilità all’impresa scientifica e tecnologica del machine learning, oltre che al rischio molto concreto di invitare le persone ad affidarsi eccessivamente a modelli che sono impropriamente considerati molto accurati. È possibile fare ricerca anche su questi aspetti. Ad esempio, noi a brevissimo pubblicheremo un lavoro che propone dei metodi alternativi al “voto di maggioranza” per identificare la risposta più corretta quando un insieme di valutatori (rater in inglese) si esprime senza aver raggiunto consenso unanime riguardo alla annotazione di un certo insieme di casi: abbiamo chiamato questi metodi “reductions” (perché un insieme di annotazioni sono ridotte ad una sola etichettatura target) e ce ne sono davvero di moltissimi tipi, alcuni dei quali ispirati anche a metodi di votazione concepiti nei secoli scorsi ed altri che invece fanno riferimento alle ultime scoperte in ambito di intelligenza collettiva.

Insomma, mentre in un contributo il nostro messaggio è piuttosto deprimente, perché abbiamo sostenuto che spesso ci illudiamo sulla accuratezza di molti modelli di intelligenza artificiale in medicina (in ambito supervisionato), in un altro contributo abbiamo cercato di contribuire positivamente a questo stato di cose, fornendo dei metodi computazionali per migliorare la qualità del ground truth sulla base di quello che è ragionevole avere: e cioè l’opinione di un insieme ristretto di esperti di dominio che analizzano un certo numero di casi “tipo”.

LS: Credi che lo stesso problema si applichi ad altre ricerche sul machine learning, anche se non in ambito medico?

FC: Certo! Qualunque dominio applicativo dove il ground truth è generato da parte di esperti umani che devono valutare situazioni o casi di non banale interpretazione ricade nel perimetro del nostro discorso: selezione delle risorse umane, valutazione del rischio di recidiva o fuga/inquinamento delle prove, valutazione del rischio di insolvenza, insomma, quasi tutti quegli ambiti in cui le decisioni automatizzate o supportate dal machine learning possono avere un effetto giuridicamente rilevante e riguardare condizioni che un tempo si definivano “sensibili”.

LS: Ci spieghi meglio come funziona la nuova metrica che proponete?

FC: La nostra metrica si basa su quella più semplice e intuitiva (che non sconta l’accordo dovuto al caso) che per ogni “istanza” o “oggetto” conta la frazione di coppie di esperti che sono in accordo tra di loro e ne fa la media su tutti gli oggetti. La nostra metrica modifica questa formula andando a pesare queste coppie di accordi: ogni coppia è pesata per il prodotto delle quantità che rappresentano il grado di convinzione dei due rispettivi esperti, opportunamente normalizzato. La giustificazione di questa definizione (e il fattore di normalizzazione) è di natura probabilistica, usando il Teorema di Bayes per calcolare la probabilità (condizionata al fatto che abbiamo osservato un accordo) che l’accordo osservato non sia dovuto al caso. Un vantaggio evidente della nostra metrica è che può essere applicata anche a livello di singola istanza. Di seguito riportiamo appunto le formule per il nostro indicatore di attendibilità bilanciata (weighted reliability, pho), definito a livello di riga e di intero dataset:

weighted reliability, pho

LS: Grazie ai tuoi progetti di intelligenza artificiale in ambito medico lavori a stretto contatto con il personale sanitario. Qual è secondo te la loro inclinazione verso i nuovi tool di intelligenza artificiale? C’è più speranza o scetticismo?

FC: È molto difficile generalizzare: come in ogni contesto, la predisposizione delle persone nei riguardi delle nuove tecnologie dipende da aspettative, conoscenze, competenze e anche preferenze e idiosincrasie personali, che non sono sempre del tutto legate a ragionamenti espliciti o razionali: esistono numerosi modelli (chiamati di prontezza, accettazione o adozione) che operalizzano questi fattori e che comprendono numerosi elementi di contesto, quali anche l’età, ma io in ambito medico metterei dentro anche la specialità medica.

Ma tra gli estremi della speranza e dello scetticismo, io direi che il sentimento che ho trovato essere più diffuso (lo dico da una posizione di privilegio, perché non lavoro solo al Galeazzi e al San Raffaele, due IRCCS tra i più importanti in Italia, ma faccio spesso eventi di formazione e divulgazione a pubblici medici molto eterogenei) direi piuttosto la curiosità. Il problema è che noi informatici non sappiamo ancora presentare adeguatamente i risultati delle nostre ricerche. Prendiamo ad esempio l’accuratezza e qualsiasi metrica si basi sul tasso di errore di un modello predittivo. Ai medici non interessa questo dato, buono solo per persone che pensano che tutti gli errori siano uguali. In medicina non lo sono. È quindi importante sviluppare metriche che siano più precise e radicate nelle preferenze ed esigenze dei medici in prima linea.

Noi ad esempio stiamo lavorando ad una metrica che permette di pesare diversamente falsi negativi e falsi positivi, a seconda delle esigenze intrinseche al compito classificatorio che il modello dovrebbe supportare (ad esempio, lo screening deve essere più specifico, la diagnosi specialista deve essere più sensibile), e casi facili e difficili (ad esempio, in un setting di cura primaria è più importante essere accurati sui casi facili; in un setting di cura secondaria o terziaria sui casi difficili oppure su quelli rari). Ma come valutare la difficoltà dei casi? Come valutare la interpretabilità di un modello di machine learning? Come valutarne la utilità e la costo-efficacia? Questi sono (alcuni degli) ambiti di ricerca che la comunità scientifica sta in larga parte trascurando, alimentando nei medici l’idea che molti informatici, anche di successo nelle loro comunità specialistiche, non stiano facendo altro che applicare quello che sanno fare, il machine learning ora, a dati medici, senza però conoscerne le peculiarità e le criticità dei contesti lavorativi che producono tali dati, e che quindi non stiano davvero sviluppando intelligenza artificiale medica e per i medici. Nel mio recente editoriale chiamo questo fenomeno la “forra” che divide development e operation. Ecco, per riuscire a trasferire valore e portarlo dai nostri laboratori al “punto di cura” dove lavorano i medici per il benessere dei loro pazienti, forse dovremmo costruire meno cattedrali e castelli (spesso solo dei bellissimi villaggi Potemkin), e invece costruire più ponti e più solidi. Questo lo sosterrò anche nel mio prossimo keynote al CD-MAKE 2020 Workshop on explainable Artificial Intelligence il prossimo Agosto.

Forra della fiducia (Cabitza)

LS: Qualche giorno fa in un tweet ti sei espresso contro l’assunto che lo sviluppo di software AI equivalga alla creazione di soluzioni, arrivando ad augurarti che tale asserzione venga considerata socialmente inammissibile. Il contesto del tweet riguardava una discussione sui ricercatori “mainstream” (maschi, bianchi, eterosessuali) che cercano di applicare le loro “soluzioni” tecnologiche a qualsiasi problema di bias, spesso peggiorando la situazione. Ci potresti spiegare meglio questo tuo pensiero?

FC: La tecnologia viene spesso proposta come una soluzione a dei problemi che riguardano la sfera sociale e culturale di organizzazioni o comunità. Spesso, però, come ha argomentato ad esempio Tenner, le soluzioni tecniche non ottengono i risultati sperati o, peggio, introducono nuovi problemi o peggiorano quelli esistenti: è la cosiddetta Cobra AI di cui parlo in un capitolo di prossima pubblicazione per i tipi della MIT Press.

Il soluzionismo tecnologico, come lo chiama Evgenij Morozov, o il tecnosciovinismo, come lo chiama Meredith Broussard, possono quindi fare più danni del problema stesso, anche perché distrae da soluzioni magari più semplici ma anche più efficaci, o attira finanziamenti e fondi che sarebbero stati spesi in modo più appropriato perseguendo altre strade e opzioni. L’unica soluzione a questa “forma mentis” filo-tecnologica, propugnata da chi non ha una comprensione adeguata della complessità che è tipica delle situazioni sociali in cui un problema si presenta o emerge, è allontanare chi dimostra questa superficialità da quei consessi in cui gli esperti sono tenuti a sviluppare politiche di intervento alternative e decidere quale opzione intraprendere, e la diffusione di una maggiore diffidenza nei confronti di chi pensa che la tecnologia, e in particolare ciò che può essere definito come intelligenza artificiale, sia la soluzione, anziché parte del problema (o meglio, parte di uno specifico modo di vedere le cose complesse, imprevedibili e difficilmente controllabili come un problema).

È importante che ogni volta che qualcuno propone l’intelligenza artificiale come parte della soluzione qualcuno si senta legittimato a chiedere a questa persona: cosa vuoi automatizzare? (un processo, un compito, una decisione); perché vuoi automatizzarlo? (maggiore efficienza, risparmi, efficacia, soddisfazione, sostenibilità umana, sociale o ambientale?). Nell’interesse di chi vuoi farlo? E, da ultimo, è importante che si ottenga una risposta non scontata a quella che ora è solo una domanda ironica che spesso si pongono le persone disilluse di un certo modo di sviluppare tecnologie digitali e consapevoli delle loro potenziali conseguenze inattese: “cosa mai potrebbe andare storto?” (What Could Possibly Go Wrong?)

Qualcosa andrà sempre storto: e se potrà farlo allora, prima o poi (cf. Murphy’s Law), lo farà. Spetta a noi capire come minimizzare la probabilità che l’innovazione sviluppi delle conseguenze inattese, il loro impatto sulla vita di utenti e cittadini e, soprattutto, evitare che facciano del male a chi non ha molto da guadagnare da essa.

LS: Infine, c’è qualche domanda che non ti ho fatto ma che ti avrei dovuto fare?

FC: Eh tante, ma annoierei te e i tuoi pazienti lettori. La chiudo qui e ti ringrazio dell’interesse per il mio lavoro e per i temi di ricerca che da qualche anno tratto insieme ai miei colleghi (tra cui ricordo Davide Ciucci, con cui dirigo il laboratorio MUDI (Modeling Uncertainty, Decisions and Interaction), del dipartimento di informatica dell’Università degli Studi di Milano-Bicocca, e due nostri ottimi studenti di dottorato, Andrea Campagner e Andrea Seveso, senza di loro molte delle idee che ti ho presentato o sarebbero rimaste in un cassetto o, cosa ancora più importante, non avrebbero la forma con cui le presentiamo ora alla comunità scientifica e professionale delle persone interessate all’evoluzione dell’Intelligenza Artificiale Medica basata sui dati.

Federico Cabitza ha conseguito la laurea in Ingegneria Informatica al Politecnico di Milano nel 2001 con una tesi su Intelligenza Artificiale Subsimbolica sotto la supervisione di Marco Somalvico. Dal 2001 ha lavorato come analista software nel settore privato, fino al 2004 come dipendente e fino al 2011 come consulente. Nel febbraio 2007 ha conseguito il dottorato di ricerca in informatica con una tesi su modelli e architetture computazionali a supporto del lavoro collaborativo in ambito aziendale sotto la supervisione di Carla Simone. Assunto come ricercatore nel 2011 dall’Università degli Studi di Milano-Bicocca, è attualmente professore associato presso il Dipartimento di Informatica del medesimo Ateneo, dove è titolare degli insegnamenti di Interazione Uomo-Macchina, Sistemi Informativi, Interaction Design e Data Visualization erogati nei corsi di Laurea di Informatica e Data Science. Insegna anche Interazione Uomo-AI al corso di dottorato in Informatica. Dal 2016 collabora con la Direzione Scientifica dell’IRCCS Istituto Ortopedico Galeazzi di Milano per la definizione di modelli predittivi basati su Machine Learning. Attualmente sta conducendo diversi studi con il servizio di Medicina di Laboratorio dell’IRCCS Ospedale San Raffaele in ambito COVID-19. E’ autore di più di 130 pubblicazioni scientifiche, molte delle quali relative a informatica medica e sistemi a supporto della collaborazione, della gestione della conoscenza e del processo decisionale in ambito ospedaliero.

Cabitza, F., Locoro, A., Alderighi, C., Rasoini, R., Compagnone, D., & Berjano, P. (2019). The elephant in the record: on the multiplicity of data recording work. Health informatics journal, 25(3), 475-490.

Cabitza, F., Campagner, A., Albano, D., Aliprandi, A., Bruno, A., Chianca, V., … & Messina, C. (2020). The Elephant in the Machine: Proposing a New Metric of Data Reliability and its Application to a Medical Case to Assess Classification Reliability. Applied Sciences, 10(11), 4014.

Campagner A, Sconfienza L, Cabitza F. H-Accuracy, an Alternative Metric to Assess Classification Models in Medicine. Stud Health Technol Inform. 2020;270:242-246. doi:10.3233/SHTI200159

Cabitza, F., Campagner, A., & Balsano, C. (2020). Bridging the “last mile” gap between AI implementation and operation:“data awareness” that matters. Annals of Translational Medicine, 8(7).

Cabitza, F. Campagner A., Del Zotti, F., Ravizza, A. Sternini F. (2020) All You Need Is Higher Accuracy? On The Quest For Minimum Acceptable Accuracy For Medical Artificial Intelligence. Proceedings of eHealth, the 12th International Conference on e-Health. 21 – 23 July 2020

In corso di pubblicazione:

Campagner, A., Ciucci, D., Svensson C.M., Figge, M.T., Cabitza F. (2020) Ground Truthing From Multi-Rater Labelling With Three-way Decisions and Possibility Theory

Cabitza F., (2020) Cobra AI: exploring some unintended consequences of our most powerful technology. In: Machines We Trust Getting Along with Artificial Intelligence. MIT Press.

2020-07-15
Istituto Italiano per l’Intelligenza Artificiale: Torino si fa avanti
Torino

All’indomani della pubblicazione della strategia governativa per l’intelligenza artificiale, che prevede la creazione di un Istituto Italiano per l’Intelligenza Artificiale (I3A), il direttore della pastorale universitaria e coordinatore del servizio per l’Apostolato Digitale dell’Arcidiocesi di Torino don Luca Peyron ha candidato la città piemontese a ospitare il futuro istituto.

In un post su Facebook Peyron afferma che “Torino avrebbe tutte le carte in regola: le avrebbe dal punto di vista tecnologico con due grandi Atenei di respiro internazionale e che proprio su questi temi si collocano ai massimi livelli insieme ad un tessuto imprenditoriale interessante.

La proposta ha subito raccolto consensi dal mondo industriale, come il Gruppo ICT dell’Unione Industriale di Torino che tramite il suo presidente Massimiliano Cipolletta in un comunicato dichiara: “le aziende del territorio sono pronte ad affrontare questa importante opportunità e ci rendiamo disponibili fin da ora ad avviare un tavolo di lavoro finalizzato a unire tutti gli attori istituzionali, accademici e imprenditoriali, ed elaborare un progetto condiviso“, o come il Club degli Investitori, un’associazione di oltre 180 business angel in Italia, il cui presidente Giancarlo Rocchietti ha affermato che “quello fra Torino e Innovazione è un binomio consolidato che si rafforza sempre di più: la città ha le carte in regola per ospitare l’Istituto che il MISE intende realizzare. Siamo certi che nella Città ci siano tanti come noi pronti a sostenere questa proposta che viene da una istituzione in grado di unire le istanze di molti“.

A confermare che quella di don Luca Peyron non è semplicemente un’iniziativa personale ci hanno pensato l’Arcivescovo mons. Cesare Nosiglia e la Diocesi di Torino, che hanno ufficialmente sostenuto la candidatura della città. Della proposta si è anche occupato il TGR del Piemonte in un servizio che potete guardare qui.

La candidatura di Torino a “capitale AI d’Italia” è senz’altro un buon segnale (sui social è anche partito l’hashtag #aitorino): la città ha atenei ben preparati e – come abbiamo visto – un tessuto industriale e politico pronto a mettersi in gioco. Fra l’altro, ricordo che la proposta del gruppo di esperti prevede una sede centrale e una decina di sedi distaccate sparse per l’Italia, quindi assegnare la sede a una città non significa dimenticarsi del resto del Paese.

Inoltre mi piace vedere che la proposta proviene dal mondo ecclesiastico, a dimostrazione che l’intelligenza artificiale sta assumendo una dimensione sempre più multi-stakeholder. Sempre a Torino, per fare un esempio personale, qualche mese fa collaborai in veste di “esperto di cybersecurity” con il Laboratorio “Luciano Gallino” dell’Università per creare una puntata della serie “La quarantena di Nao”. Il Laboratorio esplora l’impatto dell’intelligenza artificiale in ambito sociale e durante l’epidemia – e la successiva quarantena – i professori e i ricercatori del laboratorio hanno organizzato una serie di video per avvicinare ai bambini al mondo dei robot (“Nao”, appunto) e dell’AI.

Devo però ricordare che l’Istituto Italiano per l’Intelligenza Artificiale per ora è solo una proposta del gruppo di esperti (la strategia che hanno formulato non è vincolante per il MISE), ben vengano quindi candidature prestigiose come quella di Torino, che se non altro contribuiscono a concretizzare questa importante iniziativa.

2020-07-14
Nuovo metodo per mitigare gli attacchi adversarial alle reti neurali

Bo Li, oggi professoressa di data science presso l’Università dell’Illinois, qualche anno fa assieme ad alcuni colleghi attaccò degli adesivi su un segnale di “stop” (pdf) per dimostrare come fosse facile confondere i sistemi delle auto a guida autonoma, che scambiavano il segnale di stop per un limite di velocità (ovviamente tutte le ricerche si sono svolte in sicurezza).

In questi giorni, alla trentasettesima International Conference on Machine Learning, Bo Li ha presentato un nuovo metodo (pdf) per addestrare le reti neurali a essere più resistenti ad alcuni tipi di attacchi adversarial. Introducendo una rete aggiuntiva che genera esempi di attacco, in maniera simile a una GAN, la rete “principale” è in grado di minimizzare la perdita e quindi mitigare gli effetti di eventuali attacchi.

Per approfondire: A new way to train AI systems could keep them safer from hackers

2020-07-13
Interrotto il progetto francese per il riconoscimento automatico delle mascherine nelle stazioni

Non c’è pace per il riconoscimento facciale, anche se l’unico riconoscimento che fa è quello delle mascherine. Ricordate quel progetto-pilota a Parigi di cui scrivevo a maggio, che avrebbe dovuto contare la percentuale di persone che indossano una mascherina in una stazione pubblica? Non vi era una vera e propria identificazione della persona, solo una verifica su quanti passeggeri indossassero una mascherina e quanti no.

Dopo poco più di un mese il progetto è stato bloccato dalla stessa RATP (Régie Autonome des Transports Parisiens) che ha raccolto il parere negativo del CNIL, la Commission Nationale de l’Informatique et des Libertés, che ricorda il diritto di ogni cittadino a opporsi all’acquisizione delle proprie immagini negli spazi pubblici.

Per approfondire: Trop intrusives, les caméras de détection de masques désactivées à Paris et à Cannes (in francese)

2020-07-07
Conferenza su intelligenza artificiale e creatività musicale

Generalmente non segnalo ogni singolo convegno o evento relativo all’intelligenza artificiale che mi arriva in posta, ma questo ha attirato la mia attenzione e potrebbe incuriosire anche molti di voi: The 2020 Joint Conference on AI Music Creativity.

L’evento nasce dalla fusione di due diverse conferenze: la Computer Simulation of Music Creativity conference e l’International Workshop on Musical Metacreation, con lo scopo di far convergere artisti e studiosi sul tema dell’emulazione della creatività musicale. Sarà organizzato dalla divisione “Speech, Music and Hearing” della Scuola di ingegneria elettronica e informatica dell’Istituto reale di tecnologia svedese e si terrà online dal 19 al 23 Ottobre 2020.

2020-07-06
ETH Zürich e Disney studiano deepfakes per i film del futuro

Disney e il Politecnico federale di Zurigo (il famoso ETH Zürich) hanno perfezionato una tecnica di face-swapping tramite deepfakes fotorealistici con risoluzioni di un megapixel (1024×1024). Il sistema non è ancora pronto per essere usato nei film, ma la strada è quella. Alla pagina della ricerca (qui il pdf) è disponibile un video già piuttosto convincente.

Per approfondire: High-Resolution Neural Face Swapping for Visual Effects

2020-07-05
Analisi della nuova strategia italiana per l’intelligenza artificiale
Italia

È finalmente online nella sua forma definitiva la Strategia italiana per l’intelligenza artificiale (pdf) redatta dalla task force di esperti selezionati dal Ministero dello sviluppo economico. Una lunga gestazione, dovuta non solo allo stop per il Covid-19, ma anche alla procedura di consultazione pubblica che ha visto una partecipazione multi-stakeholder alle proposte del gruppo di esperti.

La strategia italiana entra nel solco di quella europea, che vuole una intelligenza artificiale “affidabile“, che sappia ovvero conquistare la fiducia dei cittadini grazie a caratteristiche come trasparenza e robustezza. Il Covid-19 tuttavia ha fatto comprendere come oltre al “solito” rilancio della competitività del sistema produttivo italiano, il nostro Paese abbia anche bisogno di un deciso aumento della resilienza di tutto il tessuto – sociale, amministrativo, imprenditoriale – che la aiuti a superare nuove eventuali pandemie, così come minacce di altro tipo. La combinazione di tecnologie come l’AI, 5G, big data, Internet of Things, possono e devono assisterci nel fronteggiare l’emergenza sociale ed economica post-pandemia, aiutarci a prevenire o perlomeno mitigare nuove emergenze e – in ultima analisi – consentire di migliorare la vita delle persone. Questo secondo me è il fine ultimo dell’intelligenza artificiale “umano-centrica”, che a mio avviso la strategia italiana cerca di creare.

Il documento è diviso in tre parti (se non si considera il capitolo introduttivo che spiega cos’è e cosa non è l’AI):

  1. un’analisi del mercato e dei trend globali, con focus particolari sull’Europa e sull’Italia. Ovviamente offre uno spaccato fermo a una certa data, diverrà meno attuale man mano che andiamo avanti nel tempo, ma ha lo scopo di informare il lettore sullo stato delle cose e preparare la cornice in cui si inseriranno le proposte della strategia;
  2. un elenco dei presupposti e per certi versi dei criteri principali che hanno guidato il gruppo nella formulazione delle proposte: umanesimo (gli esseri umani al centro), affidabilità e sostenibilità. Elementi distintivi “senza tempo” che dovrebbero guidare le strategie attuali e future;
  3. le 82 proposte o raccomandazioni di policy.

Riguardo alle raccomandazioni, in questa sede segnalerò quelle secondo me più rilevanti. Senza nulla togliere al resto delle indicazioni ovviamente, ma ricalcare la strategia punto per punto sarebbe stato inutile. Per farvi un’idea completa ve ne consiglio la lettura.

Raccomandazione 1
Oltre a chiedere che l’Italia sia presente a tutti i tavoli che contano, gli esperti evidenziano quattro iniziative da seguire con attenzione: 1) la Global Partnership on AI, un’organizzazione ospitata dall’OCSE, promossa da alcuni governi del G7 ma estesa anche altri Paesi (ne parlavo qualche settimana fa perché gli USA la vorrebbero usare in funzione anti-Cina); 2) AI Watch, un progetto della Commissione Europea gestito congiuntamente dal Joint Research Centre e DG CONNECT (fra l’altro, AI Watch ha pubblicato il più completo documento di definizione e tassonomia dell’AI che io abbia mai visto); 3) la Digital Skills and Jobs Coalition, un progetto sempre dell’Unione Europea che mira ad aggiornare le competenze dei lavoratori europei per far fronte alle richieste del mercato e 4) GAIA-X, il tentativo strategico di creare un Cloud tutto europeo (ricordo che le risorse computazionali nel Cloud sono essenziali per addestrare modelli di deep learning sempre più performanti).

Curiosamente, le stesse indicazioni sono ripetute per sommi capi anche nella Raccomandazione 21.

Raccomandazione 3
In linea con i trend soprattutto europei, si afferma il primato dell’essere umano sulla tecnologia AI, che deve essere al servizio dell’uomo e non viceversa (il documento si esprime meglio, ma la sostanza è questa).

Raccomandazione 5
Si consiglia di puntare all’embedded AI (o edge AI), ovvero a quei sistemi di intelligenza artificiale presenti direttamente sul dispositivo. Per fare un esempio, l’AI all’interno di un drone che elabora le immagini della videocamera e prende decisioni in autonomia sfrutta un sistema at the edge, che si differenzia invece da un sistema che dal nostro ipotetico drone manda i dati a un computer centrale o a un server sul Cloud, dove vengono prese le decisioni che quindi tornano al drone sotto forma di istruzioni. Per il gruppo di esperti le soluzioni edge sono più adatte al sistema-Italia, forse – e questa è una mia supposizione – perché la concorrenza dei colossi USA e cinesi sui sistemi centralizzati è difficile da battere.

D’altra parte però bisogna anche dire che i sistemi embedded rappresentano quella classe di problemi (fare tanto con poche risorse) dove il talento e l’inventiva tipici degli ingegneri italiani possono esprimersi al meglio.

Raccomandazione 10
Realizzare un “CERN per l’AI“, un centro di eccellenza per il coordinamento delle iniziative europee e che definisca un modello di sviluppo delle tecnologie di intelligenza artificiale. Ne parlava anche Emanuela Girardi (co-autrice del documento) nell’intervista che mi ha rilasciato a maggio.

Raccomandazione 12
Creare una “AI challenge” nazionale presso le scuole superiori, sulla falsariga della CyberChallenge – organizzata dal CINI – che si è dimostrata molto utile per creare interesse verso la sicurezza informatica, oltre che per far emergere giovani eccellenze italiane.

Fra l’altro, va in questa direzione anche la Raccomandazione 45, che suggerisce di creare sfide su progetti specifici che coinvolgano il mondo della ricerca e dell’industria.

Raccomandazione 16
Una forte attenzione all’up-skilling e al re-skilling dei lavoratori. Un passaggio obbligato per consentire a un numero crescente di persone l’accesso ai lavori del futuro, senza il quale in molti rischieranno di trovarsi fuori dal mercato del lavoro. Per gli esperti è necessario creare un vero e proprio diritto alla formazione e all’aggiornamento delle competenze, con particolare attenzione a quei settori “destinati al declino” (proprio così nel testo, schietto ed efficace).

Raccomandazione 29
L’Italia dovrebbe adottare il Trustworthy AI Impact Assessment (TAIA) attualmente allo studio in Europa (qui una versione pilota), come strumento di risk assessment. In pratica si chiede agli “attori” (presumo si intenda chi sviluppa, integra o usa tecnologie AI, anche se nel documento non si sbilanciano a fare un elenco) di farsi parte diligente nel prendere in considerazione gli impatti negativi, contribuendo “in misura proporzionata al rischio generato” a eseguire un’analisi del rischio. Questa, come altre raccomandazioni a seguire, cercano di definire una giusta distribuzione di responsabilità, tema molto caldo oggi nell’applicazione di tecnologie AI nell’industria e nella società.

Raccomandazione 38
Gli esperti nominati dal MiSE raccomandano la creazione di un Istituto Italiano per l’Intelligenza Artificiale (IIIA o I3A). Un centro per la ricerca che diventi il “faro” dello sviluppo AI in Italia e che si faccia inoltre carico del trasferimento tecnologico. Descrivendo in particolare questa caratteristica, Emanuela Girardi tempo fa ha affermato che “L’IIIA dovrebbe inoltre possedere un “ramo operativo” per trasferire alle aziende e alla pubblica amministrazione le applicazioni pratiche di AI, favorendo, al contempo, lo sviluppo di soluzioni concrete volte alla gestione delle emergenze come quella del Covid-19 che stiamo vivendo.”

L’istituto dovrebbe impiegare un migliaio di persone per essere simile ad altri analoghi centri esteri (ma negli allegati al documento si ipotizzano anche 1300/1400 dipendenti), con circa 600 persone presso la sede centrale e una decina di centri sparsi sul territorio che si raccordino con le università e istituti locali. Per essere operativa una struttura del genere necessiterebbe a regime (dal 5. anno in poi) di un finanziamento a lungo termine di 80 milioni di Euro all’anno. Secondo gli esperti questo istituto dovrebbe essere essenzialmente la prima cosa da fare (R79) e dovrebbe ovviamente essere dotato di un’infrastruttura di High Performance Computing (R82).

Raccomandazioni 46, 47 e 48
Sono tutte indicazioni riguardanti il potenziamento degli investimenti in ambito AI, accelerando il Fondo Nazionale per l’Innovazione (R46), aumentando gli strumenti pubblici di supporto agli investimenti (R47) e rafforzando il sostegno pubblico-privato al venture capital (R48). Più in avanti, nella Raccomandazione 79, si suggerisce anche di utilizzare la dotazione del Fondo sul Capitale Immateriale, in particolare per la creazione dell’I3A.

Raccomandazione 53
Si consiglia l’istituzione di una Cabina di Regia interministeriale (anche qui vedo analogie con quanto si è fatto in ambito cybersecurity) che svolga funzioni di supervisione, sviluppo sostenibile e coordinamento delle iniziative di ricerca, innovazione e politica industriale. Verso la fine del documento, in particolare nelle Raccomandazioni 77 e 78, si offrono altri spunti sui temi che tale cabina di regia dovrebbe trattare, nonché un termine ideale di 18 mesi (R81) per arrivare alla sua costituzione.

Raccomandazioni dalla 55 alla 68
Una serie di raccomandazioni incentrate sui dati, vero e proprio “carburante” dei modelli di intelligenza artificiale. Si suggeriscono miglioramenti e ottimizzazioni sulla raccolta e la gestione dei dati, attribuendo allo Stato la proprietà dei dati raccolti dalla Pubblica Amministrazione, fornendo linee guida sugli Open Data, mantenendo sul territorio europeo (oppure, ove possibile, nazionale) i dati usati per addestrare i modelli AI. La Raccomandazione 61 suggerisce poi a varie categorie di lavoratori occupati e non, inclusi i destinatari del Reddito di Cittadinanza, la possibilità di essere impiegati per digitalizzare e/o annotare i dati per la PA (l’annotazione è quell’attività in cui esseri umani segnano o descrivono dati – come ad esempio un’immagine – per addestrare i classificatori di intelligenza artificiale).

Raccomandazioni dalla 69 alla 75
Anche qui abbiamo raccomandazioni che catturano un tema più ampio, ovvero quello dell’AI sostenibile, in pieno allineamento con quelli che sono gli indirizzi europei. Una regolamentazione presente che garantisca lo sviluppo sostenibile (R69), magari per il settore energetico (R73), o per il supporto ai disabili (R74) e alle fasce più svantaggiate (R75). Una governance aiutata da strumenti (R70) e da finanziamenti specifici (R72), che posizioni l’Italia nel contesto internazionale fra i leader dell’AI sostenibile (R71).

Ho tralasciato, non per mancanza di importanza ma perché abbastanza sparpagliate per il documento, le molte raccomandazioni a creare corsi e momenti di formazione sull’intelligenza artificiale aperti a tutti: studenti, insegnanti, lavoratori, cittadini. Indicazioni importanti perché la corretta formazione degli Italiani rappresenta la spina dorsale su cui poggeranno tutti gli elementi della strategia.

Chiude il documento un allegato con gli investimenti da sostenere per implementare la strategia, con l’istituto che costerebbe a regime €81.773.040 l’anno, comunque solo una porzione dei 232 milioni di Euro annui (di cui una parte privati) che l’Italia dovrà investire per applicare le raccomandazioni degli esperti.

Sulla strategia italiana ho raccolto l’intervento di Piero Poccianti, Presidente dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA), che ha affermato: “Finalmente anche l’Italia ha un documento di strategia sull’Intelligenza Artificiale. Era rimasto uno dei pochissimi Paesi a non rispondere alla call europea su questo tema. La Strategia italiana è un ottimo documento, parte dalla strategia europea che propone lo sviluppo di tecnologie di intelligenza artificiale affidabili e al servizio dell’uomo e va oltre promuovendo l’utilizzo di queste tecnologie per realizzare un nuovo modello di società in linea con gli obiettivi di sviluppo sostenibile dell’agenda 2030 delle Nazione Unite. Adesso che abbiamo la strategia è giunto il momento di realizzarla senza ulteriori ritardi, serve coniugare l’Intelligenza Umana e quella Artificiale per fornire una soluzione ai tanti problemi che affliggono il nostro Paese. Ora più che mai.

Faccio mie queste considerazioni, evidenziando la necessità urgente di mettersi al lavoro per evitare che questo importante documento venga messo nel cassetto. Gli investimenti necessari non sono irrisori, ma se l’Italia perderà anche questo treno i costi che saremo costretti a pagare e che faremo pagare alle prossime generazioni saranno molto più alti.

2020-07-04
Studio di Telecom Paris sui criteri di trasparenza dell’intelligenza artificiale
XAI - AI spiegabile

Ho letto di recente un interessante studio di Telecom Paris sulla explainability, la spiegabilità dell’intelligenza artificiale, che prende di petto il problema e propone criteri per identificare il giusto livello di spiegabilità a seconda dell’ambito di applicazione.

Infatti aggiungere trasparenza e spiegabilità ai sistemi AI è spesso costoso, e non tutti i sistemi hanno bisogno dello stesso livello di trasparenza. Per fare un esempio, in un sistema di guida autonoma si dovrà porre molta più attenzione alla spiegabilità delle decisioni rispetto a un sistema per la raccomandazione dei film.

I criteri contestuali identificati dallo studio sono quattro:

  • le persone che dovranno beneficiare delle spiegazioni: ad es. il pubblico, oppure un ente regolatore?
  • l’importanza e l’impatto dell’algoritmo: eseguirà operazioni vitali come guidare un’auto, oppure superficiali/cosmetiche come raccomandare canzoni?
  • il framework legale di riferimento, ad esempio nell’Unione Europea abbiamo il GDPR da rispettare
  • fattori operativi che identificano la reale necessità di rendere l’algoritmo spiegabile: lo si deve fare per ottenere una certificazione, oppure per aumentare la fiducia degli utenti?

Un ulteriore apprezzamento al fatto che lo studio sia stato condotto con un approccio multi-disciplinare. È possibile scaricarlo qui (in pdf) e leggere la presentazione a questo link.

2020-07-02
L’AI che (non) riconosce i criminali dalla foto del volto
Riconoscimento facciale

Un buon numero di esperti e ricercatori AI nei giorni scorsi ha manifestato il proprio dissenso e si è duramente opposto a una ricerca in via di pubblicazione e intitolata “A Deep Neural Network Model to Predict Criminality Using Image Processing“.

La ricerca in questione, preparata da due professori e un dottorando della Harrisburg University in Pennsylvania, sembra un misto fra le teorie del Lombroso e Minority Report: alla rete neurale predisposta dai ricercatori basterebbe dare un’occhiata alla fotografia del volto di una persona per prevedere – con l’80% di accuratezza – se questa abbia o meno inclinazioni criminose.

In altre parole, se siamo (o saremo) dei criminali l’intelligenza artificiale lo saprà semplicemente guardando una nostra foto.

La pagina dell’università che presentava la ricerca (ora ufficialmente rimossa, ma ancora consultabile grazie a Internet Archive) si esprimeva senza mezzi termini: “Con l’80% di accuratezza e nessun pregiudizio razziale, il software può prevedere se qualcuno è un criminale basandosi solamente su una foto del volto. Il software è indicato per aiutare le forze dell’ordine a prevenire il crimine” (l’enfasi è mia).

Come se non bastasse, la ricerca sarebbe stata pubblicata all’interno di una futura collana del prestigioso editore Springer, per essere precisi “Springer Nature – Research Book Series: Transactions on Computational Science & Computational Intelligence“.

Ma per molti studiosi ed esperti di AI questa ricerca ha decisamente oltrepassato il segno. Anzitutto le premesse sono sbagliate: il machine learning, contrariamente a quanto asseriscono gli autori dello studio, non supera gli umani nel riconoscimento delle emozioni, né è possibile identificare tratti somatici o estrarre “microscopiche caratteristiche” dalle foto dei volti che siano “altamente predittive del livello di criminalità” degli individui. Del resto la fisiognomica predittiva è stata sbertucciata già nel secolo scorso, non basta certo coprirla con un po’ di machine learning per riabilitarla.

È poi impensabile dichiarare alla leggera che un sistema AI sia “libero da pregiudizi”, poiché i pregiudizi si annidano ovunque, anche in maniera involontaria e surrettizia, a partire dalle ipotesi alla base della ricerca, alla costituzione dei dataset, fino ai modelli utilizzati o alle tecniche di regolarizzazione, passando ovviamente per la cultura e l’origine dei ricercatori che lavorano allo studio.

Infine c’è la questione dell’ambito di applicazione. Oggi molte aziende abusano dei termini “intelligenza artificiale” o “deep learning” per vendere prodotti o impreziosire le presentazioni Powerpoint, e finché ci si limita a quello ci potranno essere magari acquisti sbagliati, ma senza impatti sociali. Quando però questa sorta di voodoo tecnologico viene usato per rifilare invenzioni sconclusionate al sistema giudiziario (e non parliamo dell’ambito medico) il rischio di spianare la strada a pericolose tecno-aberrazioni nella nostra vita è terribilmente concreto.

Così stavolta la comunità dell’intelligenza artificiale si è organizzata come fanno tante altre, con una raccolta firme online e un invito – diretto a Springer – a non pubblicare la ricerca in questione, arricchendo la lettera con una spiegazione dettagliata e particolareggiata che potete leggere qui: Abolish the #TechToPrisonPipeline

La lettera aperta è stata sottoscritta in pochi giorni da migliaia di persone e ha attirato subito l’attenzione dei media come Wired e la BBC, oltre che di qualcuno alla Harrisburg University che ha deciso di rimuovere subito l’annuncio dal sito. Lo studio non solo non finirà nella collana di Springer, ma la ricerca che molti hanno definito “pseudoscienza” (e che aveva fra i suoi autori un ex poliziotto di New York) non verrà proprio pubblicata.

La protesta, la raccolta di firme e l’immediata reazione delle parti in causa segnala forse l’inizio di una presa di coscienza comune da parte del settore AI. Oggi c’è chi pensa che basti aggiungere un po’ di machine learning alla propria ricerca per poter pubblicare qualunque cosa. E poiché a tantissimi stakeholder – a cominciare da gran parte del mondo accademico, passando per i giornalisti, i politici e i consulenti che dovrebbero consigliarli – mancano ancora le basi per comprendere quale proposta è seria e quale invece è assurda, rischiamo di veder implementate nella nostra società “soluzioni” di intelligenza artificiale profondamente sbagliate e dannose.

L’unico argine è dunque rappresentato dalla comunità di tecnici e ricercatori AI, che però sussulta solo in caso di eventi di natura sproporzionatamente ridicola come questo. Una autoregolamentazione “sui generis” del settore che non è sufficiente e che non potrà certo mettere una pezza su tutto. Servono quindi al più presto politiche e iniziative per educare una parte della popolazione, che sia più ampia e trasversale possibile, ai limiti e alle potenzialità delle tecnologie di intelligenza artificiale.

Per essere tutti un po’ più consapevoli e preparati.

2020-07-01
Assistenti digitali sempre più insultati

Amati oppure odiati? Gli assistenti digitali che entrano nelle nostre case sono sempre più frequentemente bersaglio delle nostre frustrazioni. Se non possiamo – per ovvie ragioni sociali – insultare familiari o colleghi di lavoro, in casa ci sfoghiamo contro Siri o Alexa, magari per qualche piccolo errore o per una incomprensione. Un nuovo trend che psicologi e sociologi cercano di spiegare.

Ad aumentare le frustrazioni si aggiunge anche un certo grado di delusione: le aziende spacciano questi chatbot per tecnologie avveniristiche, mentre gli smart speaker non riescono neanche a capire bene i dialetti.

Per approfondire: Alexa, just shut up: We’ve been isolated for months, and now we hate our home assistants

2020-07-01
---
twitter linkedin facebook website
Notizie.AI

Roma, Italia

Vi siete iscritti a questa newsletter dando il consenso alla privacy e confermando l'iscrizione attraverso il double opt-in. L'elenco degli iscritti non sarà ceduto a terzi.

In ogni momento potete cancellarvi da questa lista al link qui in basso:

Cancellami
---
Se questa newsletter vi è piaciuta fatela conoscere ai vostri colleghi:
MailerLite