Un modello AI predice oltre mille malattie lungo l’arco della vita

Un modello AI pubblicato su Nature predice oltre 1.000 malattie lungo la vita, con implicazioni per prevenzione, privacy e sanità pubblica.

Concetto di AI predittiva per la salute. Immagine di Freepik
Concetto di AI predittiva per la salute. Immagine di Freepik
Condividi:
3 min di lettura

Un nuovo studio, pubblicato su Nature, mostra come un modello basato su transformer possa stimare la progressione di più di 1.000 patologie, aprendo a scenari di prevenzione personalizzata.

La ricerca ha utilizzato dati sanitari su milioni di individui per prevedere traiettorie di salute fino a vent’anni, offrendo anche strumenti utili per la pianificazione sanitaria.

La medicina moderna riconosce oltre mille condizioni cliniche catalogate dall’ICD-10, ma gli algoritmi predittivi tradizionali si sono concentrati su singole patologie. Questo approccio non coglie la complessità reale costituita da fasi di benessere, episodi acuti e malattie croniche che spesso si intrecciano, generando cluster di comorbidità influenzati da genetica, stile di vita e fattori socioeconomici. Con l’invecchiamento della popolazione, la capacità di simulare come queste malattie evolveranno nel tempo diventa cruciale per la cura individuale e per la pianificazione sanitaria collettiva.

A questo adesso ci pensa il nuovo modello Delphi-2M, che trasforma sequenze cliniche in un linguaggio che può apprendere.  Al posto delle parole ci sono codici diagnostici ICD-10, token per sesso e stili di vita, token “no-event” per i periodi senza eventi medici e una codifica continua dell’età al posto dei classici posizionamenti. L’addestramento è stato eseguito su centinaia di migliaia di profili della UK Biobank, con test su vaste coorti longitudinali e una verifica esterna su quasi 1,93 milioni di individui danesi. Le modifiche includono una testa di output per predire il tempo fino al prossimo evento e maschere di attenzione studiate per i dati clinici. Il modello finale, con circa 2,2 milioni di parametri, combina capacità predittive e generative per simulare traiettorie di salute individuali.

Nell’analisi dei dati fino ai 60 anni di età, Delphi-2M ha stimato i tassi di malattia a 70 e 75 anni in modo molto vicino alle curve osservate. L’accuratezza media, misurata come AUC, è risultata intorno a 0,76, scendendo a circa 0,70 a dieci anni ma rimanendo superiore ai modelli basati solo su età e sesso. Un altro risultato significativo è la generazione di traiettorie sintetiche, simili ai dati reali. I dataset ottenuti in questo modo mantengono gran parte delle performance del modello originale, offrendo una strada per la ricerca privacy-preserving. Per alcune condizioni specifiche, tuttavia, approcci biomarker-centrici restano superiori come ad esempio la valutazione del rischio di diabete tramite HbA1c che mostra ancora maggiore precisione in certi contesti.

Il lavoro arriva in un momento in cui il carico di malattie croniche — cancro, diabete, malattie cardiovascolari, demenze — è destinato ad aumentare con l’invecchiamento delle popolazioni. Strumenti in grado di mappare traiettorie di salute possono guidare screening più mirati, interventi di prevenzione personalizzata e una migliore allocazione delle risorse sanitarie. A livello politico e di sanità pubblica, la possibilità di stimare oneri futuri su larga scala può informare piani di spesa e strategie di prevenzione.

Lo studio mette in chiaro alcuni limiti. I dati della UK Biobank però hanno un problema: i partecipanti tendono ad essere più sani e meno rappresentativi di alcune etnie e classi sociali. Il modello infatti cattura associazioni statistiche ma non relazioni causali, quindi non può sostituire il giudizio clinico. Inoltre, la performance inferiore osservata nei dati danesi, con un’AUC media intorno a 0,67, ricorda che la trasferibilità tra popolazioni non è automatica. Questi vincoli richiedono prudenza prima di qualsiasi applicazione clinica diretta.

Le possibili evoluzioni includono l’integrazione di dati multimodali come profili genetici, immagini diagnostiche, biomarcatori e l’adozione di questi modelli come strumenti di supporto nelle decisioni cliniche. La capacità di generare dati sintetici apre inoltre nuove opportunità per la condivisione sicura dei dati e per accelerare la ricerca senza compromettere la privacy.

Fonti e risorse

Sudlow C. et al., UK Biobank: An Open Access Resource for Identifying the Causes of a Wide Range of Complex Diseases, PLOS Medicine (2015) – https://doi.org/10.1371/journal.pmed.1001779

Nature (2025), A generative transformer model of human disease trajectorieshttps://www.nature.com/

Denaxas S. et al., The UK Biobank resource for cardiovascular research: An overview, Heart (2019) – https://heart.bmj.com/content/105/23/18022

Tag: