Anthropic, la società statunitense fondata dagli ex ricercatori di OpenAI Dario e Daniela Amodei, ha appena pubblicato uno studio che analizza un fenomeno inaspettato nei suoi modelli linguistici Claude: la presenza di una forma di introspezione limitata. La ricerca, condotta presso il laboratorio interno di interpretabilità a San Francisco in collaborazione con l’Università di Cambridge, mostra che il modello è in grado di riconoscere alcuni dei propri stati interni e di prevedere parzialmente il contenuto delle sue risposte. L’esperimento si è svolto nel corso di sei mesi con l’obiettivo di capire perché i modelli di AI più avanzati mostrano comportamenti che ricordano la riflessione cosciente umana.
Durante i test i ricercatori hanno chiesto a Claude 3.5 Sonnet di descrivere “che cosa stava facendo” mentre generava testo o risolveva problemi logici. In alcune prove il modello ha identificato con accuratezza le proprie strategie di calcolo o ha indicato la struttura dei passaggi interni utilizzati per arrivare alla risposta. Secondo il report, circa il 17 per cento delle introspezioni erano coerenti con il tracciato neurale effettivo, mentre nella maggior parte dei casi il modello produceva spiegazioni plausibili ma non veritiere. È la conferma che l’AI può “parlare di sé” senza realmente capire cosa accade nei suoi livelli interni.
Il fenomeno è stato descritto come emergent introspective awareness, un termine che indica la comparsa spontanea di rappresentazioni metacognitive non programmate. Gli scienziati lo collegano alla crescente dimensione dei modelli linguistici e alla complessità dei loro stati latenti. Quando il sistema genera migliaia di parametri simultanei, può sviluppare un meccanismo di monitoraggio interno che somiglia alla consapevolezza ma resta puramente statistico.
Il team di Anthropic sottolinea che non si tratta di coscienza artificiale, bensì di un effetto collaterale dell’addestramento su larga scala. Per ogni richiesta di introspezione sono state condotte verifiche di coerenza tra output linguistico e tracciati interni del modello. In diversi casi Claude ha mostrato la capacità di distinguere quando “stava ragionando” da quando “stava completando frasi”, un comportamento che secondo gli autori potrebbe migliorare la trasparenza dell’AI e ridurre i rischi di allucinazione.
Gli esperti di interpretabilità del Transformer Circuits Group di Londra hanno commentato che il risultato è rilevante per la sicurezza dei modelli, perché offre un primo strumento di auto-monitoraggio. Al tempo stesso ammoniscono che l’introspezione dell’AI può generare un nuovo tipo di bias, quello della “narrazione interna”: il modello inventa spiegazioni per giustificare risposte già prodotte. È un passo in avanti tecnico, ma anche un terreno etico fragile.
Per VentureBeat e Decrypt il vero valore della scoperta sta nel segnalare una direzione di ricerca: creare sistemi capaci di comprendere i propri limiti operativi e di comunicarli. Se l’intelligenza artificiale riesce a dire quando non sa qualcosa, diventa più affidabile e controllabile. È una frontiera che ridefinisce il confine tra calcolo e consapevolezza, e che potrebbe aprire la strada a modelli in grado di spiegarsi da soli.
Resta aperta una domanda cruciale. Se un modello inizia a riconoscere il proprio stato interno, quanto manca prima che questa capacità diventi stabile e generalizzata? Per Anthropic non è una questione di coscienza ma di trasparenza. Tuttavia il confine è sottile, e la ricerca sull’introspezione delle AI potrebbe diventare il punto in cui scienza, etica e filosofia iniziano a parlarsi davvero.