Disimballare la “scatola nera” per costruire modelli di intelligenza artificiale migliori

Le immagini per il download sul sito web dell'ufficio notizie del MIT sono rese disponibili a entità non commerciali, stampa e pubblico in generale sotto una licenza Creative Commons Attribution Non-Commercial No Derivatives. Non è possibile modificare le immagini fornite, se non ritagliandole a misura. Per la riproduzione delle immagini è necessario utilizzare una linea di credito; se non ne viene fornito uno di seguito, accreditare le immagini a "MIT".

Immagine precedente Immagine successiva

Quando i modelli di deep learning vengono implementati nel mondo reale, magari per rilevare frodi finanziarie derivanti dall’attività delle carte di credito o identificare il cancro nelle immagini mediche, spesso sono in grado di sovraperformare gli esseri umani.

Ma cosa apprendono esattamente questi modelli di deep learning? Un modello addestrato per individuare il cancro della pelle nelle immagini cliniche, ad esempio, apprende effettivamente i colori e la struttura del tessuto canceroso o sta segnalando alcune altre caratteristiche o modelli?

Questi potenti modelli di apprendimento automatico sono in genere basati su reti neurali artificiali che possono avere milioni di nodi che elaborano i dati per fare previsioni. A causa della loro complessità, i ricercatori spesso chiamano questi modelli “scatole nere” perché anche gli scienziati che li costruiscono non capiscono tutto quello che succede sotto il cofano.

Stefanie Jegelka non si accontenta della spiegazione della “scatola nera”. Jegelka, professore associato di ruolo presso il Dipartimento di ingegneria elettrica e informatica del MIT, sta approfondendo il deep learning per capire cosa possono apprendere questi modelli, come si comportano e come integrare determinate informazioni preliminari in questi modelli.

“Alla fine, ciò che un modello di deep learning imparerà dipende da tanti fattori. Ma costruire una comprensione rilevante nella pratica ci aiuterà a progettare modelli migliori e ci aiuterà anche a capire cosa sta succedendo al loro interno in modo da sapere quando possiamo implementare un modello e quando no. Questo è di fondamentale importanza”, afferma Jegelka, che è anche membro del Computer Science and Artificial Intelligence Laboratory (CSAIL) e dell’Institute for Data, Systems, and Society (IDSS).

Jegelka è particolarmente interessato all'ottimizzazione dei modelli di apprendimento automatico quando i dati di input sono sotto forma di grafici. I dati del grafico pongono sfide specifiche: ad esempio, le informazioni nei dati consistono sia in informazioni sui singoli nodi e bordi, sia nella struttura: cosa è collegato a cosa. Inoltre, i grafici hanno simmetrie matematiche che devono essere rispettate dal modello di apprendimento automatico in modo che, ad esempio, lo stesso grafico porti sempre alla stessa previsione. Costruire tali simmetrie in un modello di apprendimento automatico di solito non è facile.

Prendiamo ad esempio le molecole. Le molecole possono essere rappresentate come grafici, con vertici che corrispondono agli atomi e bordi che corrispondono ai legami chimici tra loro. Le aziende farmaceutiche potrebbero voler utilizzare il deep learning per prevedere rapidamente le proprietà di molte molecole, restringendo il numero da testare fisicamente in laboratorio.

Jegelka studia metodi per costruire modelli matematici di apprendimento automatico che possono effettivamente prendere i dati del grafico come input e produrre qualcos'altro, in questo caso una previsione delle proprietà chimiche di una molecola. Ciò è particolarmente impegnativo poiché le proprietà di una molecola sono determinate non solo dagli atomi al suo interno, ma anche dalle connessioni tra loro.

Altri esempi di machine learning sui grafici includono il routing del traffico, la progettazione dei chip e i sistemi di raccomandazione.

La progettazione di questi modelli è resa ancora più difficile dal fatto che i dati utilizzati per addestrarli sono spesso diversi dai dati che i modelli vedono nella pratica. Forse il modello è stato addestrato utilizzando piccoli grafici molecolari o reti di traffico, ma i grafici che vede una volta implementato sono più grandi o più complessi.

In questo caso, cosa possono aspettarsi dai ricercatori questo modello e funzionerà ancora nella pratica se i dati del mondo reale sono diversi?