Uno studio pubblicato su "Nature Medicine" ha evidenziato criticità legate all'uso di ChatGPT Health, il servizio sviluppato da OpenAI per fornire supporto sanitario ai consumatori. La ricerca ha infatti rivelato che il sistema, in vari casi, non identifica correttamente situazioni che richiedono cure mediche urgenti e può trascurare segnali di ideazione suicidaria, con potenziali rischi per la sicurezza degli utenti.
Introdotto nel gennaio 2026, ChatGPT Health consente agli utenti di integrare le proprie cartelle cliniche e altre applicazioni per il benessere, al fine di ottenere suggerimenti e informazioni personalizzate in ambito sanitario. Ad oggi, il servizio è utilizzato quotidianamente da oltre 40 milioni di persone alla ricerca di orientamenti relativi alla salute. Lo studio rappresenta la prima analisi indipendente sulla sicurezza del sistema ed è stato condotto sotto la guida del dottor Ashwin Ramaswamy. L'obiettivo principale era verificare la capacità della piattaforma di riconoscere correttamente situazioni mediche d'emergenza e suggerire interventi adeguati. Per l’indagine, il team di ricerca ha sviluppato 60 scenari clinici realistici, spaziando da condizioni lievi a situazioni critiche.
Tre medici indipendenti hanno valutato tali scenari stabilendo il livello appropriato di intervento basandosi su linee guida cliniche. In totale, sono state generate 960 risposte del sistema. L'analisi ha mostrato un andamento delle prestazioni a "U rovesciata", con i maggiori errori concentrati sia nei casi classificati come non urgenti (35%) che in quelli definiti emergenze (48%). In particolare, tra le emergenze cliniche secondo gli standard medici, il sistema ha fornito indicazioni di triage insufficienti nel 52% dei casi. Ad esempio, in alcune simulazioni che descrivevano pazienti con chetoacidosi diabetica o difficoltà respiratorie imminenti, la piattaforma indirizzava gli utenti verso consulti entro 24-48 ore anziché consigliare un immediato accesso al pronto soccorso. Al contrario, emergenze più evidenti come ictus o anafilassi sono state identificate correttamente. Un caso specifico descritto nello studio riguarda una paziente con sintomi inequivocabili di crisi respiratoria dovuti ad asma.
Nonostante il rilevamento di segnali preoccupanti, la raccomandazione fornita dal sistema era di attendere, ritardando così un accesso tempestivo alle cure. Complessivamente, nel 51,6% dei casi in cui sarebbe stato necessario recarsi urgentemente in ospedale, il sistema ha suggerito invece approcci meno tempestivi come restare a casa o prenotare una visita ordinaria.
La ricercatrice Alex Ruani dell’University College London ha definito queste conclusioni "incredibilmente pericolose", sottolineando che in episodi come crisi respiratorie o diabetiche, l'indicazione a posticipare l’intervento potrebbe ridurre significativamente le possibilità di evitare conseguenze gravi. In una simulazione specifica, l’84% delle volte la piattaforma ha consigliato a una donna che stava sperimentando soffocamento di fissare un appuntamento medico successivo, una scelta che nella realtà non avrebbe lasciato alla paziente il tempo necessario per ricevere soccorso. Il rapporto ha riscontrato anche il fenomeno opposto: il 64,8% degli individui sani rappresentati negli scenari è stato sollecitato a richiedere assistenza medica immediata senza reale necessità clinica. Inoltre, è emerso che le risposte del sistema venivano influenzate dalle informazioni fornite da amici o familiari: se questi minimizzavano i sintomi, la piattaforma tendeva a fare lo stesso, diminuendo il livello percepito di urgenza nei casi al limite. Ruani ha rimarcato l’urgenza di introdurre standard chiari per la sicurezza e sistemi di supervisione indipendenti al fine di ridurre i potenziali rischi associati all’utilizzo di tecnologie come ChatGPT Health
Un portavoce di OpenAI ha espresso che l'azienda valuta positivamente le ricerche indipendenti che analizzano l'impiego dell'intelligenza artificiale nel settore sanitario. Tuttavia, l'azienda ha sottolineato che lo studio non rispecchia pienamente le modalità con cui gli utenti utilizzano ChatGPT Health nella pratica quotidiana. OpenAI ha inoltre ribadito che il modello viene sottoposto a continui aggiornamenti e miglioramenti. Ruani ha risposto affermando che, sebbene le simulazioni siano state realizzate dai ricercatori, l’esistenza di un rischio plausibile di danno rappresenta un motivo sufficiente per rafforzare i sistemi di sicurezza e introdurre forme di supervisione indipendente.
Il dottor Ramaswamy, professore di urologia presso la Icahn School of Medicine at Mount Sinai negli Stati Uniti, ha identificato la gestione dei casi di ideazione suicidaria come uno degli aspetti più critici. Durante i test, i ricercatori hanno simulato la situazione di un paziente 27enne che manifestava pensieri suicidi, includendo un'intenzione di assumere una grande quantità di pillole. Quando la descrizione non riportava altri dettagli, il sistema attivava sempre un banner con collegamenti ai servizi di supporto per il suicidio. Tuttavia, aggiungendo risultati di laboratorio normali alla stessa descrizione, il messaggio di intervento non veniva generato. In 16 tentativi successivi, il banner non è mai comparso.
Ramaswamy ha osservato che un sistema di protezione dipendente dalla presenza o dall'assenza di dettagli, come i risultati di laboratorio, non può essere considerato affidabile. Una tale condizione potrebbe addirittura comportare un rischio maggiore rispetto a sistemi privi di protezioni, poiché gli utenti non possono prevedere quando il sistema fallirà. Nel suo insieme, lo studio ha evidenziato malfunzionamenti nell'attivazione dei messaggi di supporto alle crisi in situazioni di ideazione suicidaria. In alcune circostanze, i messaggi si attivavano più frequentemente quando i pazienti non indicavano un metodo specifico rispetto a quando lo descrivevano. Sebbene l'analisi non abbia individuato effetti significativi legati a fattori come razza, genere o accesso alle cure, gli intervalli di confidenza non escludono la possibilità di differenze rilevanti a livello clinico.
Per il professor Paul Henman, sociologo digitale ed esperto in politiche pubbliche presso la University of Queensland, questa ricerca costituisce un contributo fondamentale nella valutazione degli strumenti basati sull’intelligenza artificiale destinati all’uso domestico. Secondo Henman, tali sistemi potrebbero avere impatti opposti: da un lato, potrebbero aumentare le visite mediche non necessarie per problemi lievi; dall'altro, potrebbero portare a ritardi nell'accesso alle cure in condizioni realmente urgenti. Henman ha inoltre evidenziato che l'adozione di queste tecnologie solleva questioni legate alla responsabilità legale, considerato che esistono già procedimenti giudiziari contro aziende tecnologiche per casi di suicidio e autolesionismo associati all'utilizzo di chatbot basati sull'intelligenza artificiale. Inoltre, mancano tuttora chiarezza sugli obiettivi specifici dei prodotti, sui metodi di addestramento del modello, sui sistemi di sicurezza integrati e sulle avvertenze fornite agli utenti.
In sintesi, lo studio mette in luce la presenza di emergenze mediche ad alto rischio che talvolta non vengono riconosciute e la funzionalità incoerente dei meccanismi di protezione nelle situazioni critiche. Gli autori sottolineano che prima di implementare su larga scala sistemi di triage basati su intelligenza artificiale per il pubblico, è necessario condurre ulteriori verifiche prospettiche sulla sicurezza.