Uno studio recente condotto dalla Harvard Medical School e dal Beth Israel Deaconess Medical Center, pubblicato sulla prestigiosa rivista Science, ha riacceso il dibattito sulle potenzialità dell’intelligenza artificiale nel campo della diagnostica medica. La ricerca ha preso in esame settantasei pazienti giunti al pronto soccorso, mettendo a confronto le capacità analitiche di medici internisti con quelle dei modelli linguistici avanzati o1 e 4o di OpenAI. Per garantire l’oggettività dei risultati, le valutazioni finali sono state affidate a valutatori terzi, ignoti all'origine delle diagnosi, assicurando così un processo di revisione imparziale e rigoroso.
I dati emersi evidenziano una performance superiore del modello o1 rispetto alla controparte umana. Basandosi esclusivamente sulle informazioni estratte dalle cartelle cliniche elettroniche, l’intelligenza artificiale ha formulato diagnosi esatte o estremamente precise nel 67% dei casi analizzati durante la fase di triage. Al contrario, i medici coinvolti hanno raggiunto livelli di accuratezza sensibilmente inferiori, attestandosi rispettivamente al 55% e al 50%. Tali evidenze suggeriscono che, in contesti basati sull'elaborazione di dati testuali strutturati, il ragionamento computazionale possa eguagliare o superare quello clinico tradizionale.
Tuttavia, questi risultati non implicano una sostituzione imminente della figura medica con i sistemi automatizzati. Gli stessi autori della ricerca chiariscono che l'intelligenza artificiale non è ancora considerata idonea a gestire decisioni critiche in situazioni di emergenza dove è in gioco la vita del paziente. Lo studio sottolinea invece la necessità di avviare indagini prospettiche più approfondite per testare tali tecnologie in contesti clinici reali, poiché l'analisi attuale si è limitata a input puramente testuali. I modelli di base mostrano infatti ancora limiti significativi quando devono elaborare informazioni non scritte o contestuali, tipiche della pratica medica quotidiana.
Un ulteriore elemento di cautela proviene dalle considerazioni etiche e legali sollevate dai ricercatori, tra cui Adam Rodman del Beth Israel. Oltre alla mancanza di un quadro formale di responsabilità giuridica per le diagnosi generate da algoritmi, persiste una forte preferenza dei pazienti per il rapporto umano, specialmente nelle scelte terapeutiche complesse. La medicina non si esaurisce nella semplice identificazione di una patologia, ma richiede una sensibilità e una capacità di mediazione che le macchine non sono ancora in grado di replicare, lasciando ai medici il ruolo centrale nella gestione del percorso di cura.
La criticità principale risiede nel processo della diagnosi differenziale, come evidenziato anche da altre ricerche indipendenti, tra cui quella pubblicata su Jama Network Open. Sebbene i chatbot riescano spesso a individuare la risposta corretta quando dispongono di tutte le informazioni, mostrano carenze strutturali nelle fasi iniziali del ragionamento clinico. La difficoltà maggiore emerge nella capacità di costruire un elenco esaustivo di ipotesi alternative e nel gestire l'incertezza intrinseca del dubbio medico. In conclusione, sebbene l'intelligenza artificiale rappresenti uno strumento potente per l'accuratezza finale, il percorso logico e la riduzione progressiva delle incertezze rimangono, allo stato attuale, una prerogativa fondamentale del professionista umano.