Anthropic e il "circuit tracing": analisi neurale di un'IA

17 Aprile 2025 - 11:03
17 Aprile 2025 - 11:05
 0  8
Anthropic e il "circuit tracing": analisi neurale di un'IA
Immagine creata con IA

Il team di Anthropic ha compiuto una ricerca sui grandi LLM (Large Language Models) per capire come funziona il loro "ragionamento" e come elaborano le informazioni per darci delle risposte o risolvere dei problemi. Il risultato è stato inaspettato, portando alla luce processi di pensiero elaborati e diversi da quelli compiuti da un cervello umano. 

Anthropic, conosciuta anche grazie al modello di IA "Claude", è riuscita a guardare all'interno di un processo di ragionamento compiuto da un'IA. Che risultato ci si aspetta da un'indagine del genere? Sicuramente un risultato affascinante e inquietante al tempo stesso. Ma procediamo con grado.

CIRCUIT TRACING

La tecnica utilizzata da Anthropic viene chiamata in inglese "circuit tracing" (lett. "tracciamento dei circuiti"). Questa tecnica si attua in tempo reale e osserva tutte le parti dell'LLM che si attivano in seguito ad un input per fornire il loro output. Nulla di diverso da ciò che si compie da anni sul cervello umano. Il confine tra pensiero naturale e artificiale diventa sempre più sottile.

Joshua Batson, militante del team che si è occupato di tale ricerca, ha dichiarato che il "circuit tracing" funziona come un microscopio che serve per esplorare il particolare e non il superficiale. Lui e il suo team non hanno scoperto cose scontate o banali come ci si augura. 

Anthropic aveva già compiuto studi in merito, identificando anche componenti specifici all'interno della "rete neurale" del modello di IA. Tra i componenti specifici risultava il Golden Gate Bridge e se se ne aumentava l'influenza, questo cominciava a comportarsi come se lo fosse davvero. A quanto pare questi comportamenti, che potremmo definire "anomali" in senso lato, si annidano nelle chain of thoughts (lett. catene di pensieri).

CHAIN OF THOUGHTS

Come agiscono queste catene di pensiero? Poniamo il caso in cui facciamo una domanda in italiano. Il modello non "pensa e agisce" in italiano, ma attiva degli elementi neutri per elaborare il concetto di quanto abbiamo chiesto, e sceglie la lingua in cui rispondere, nel nostro caso l'italiano. Il modello pensa in linguaggio universale per tradurre. Queste catene ci danno una spiegazione di come funzionano lo stesso Claude o anche ChatGPT: ecco come fanno a rispondere in lingue con le quali non sono state addestrate

Stesso discorso rimane valido per i ragionamenti matematici. Qui l'inquietudine si fa più determinante, perché si tratta di un pensiero diverso per giungere al medesimo risultato. Se gli chiediamo di fare un'addizione, anche a più cifre, non somma direttamente i numeri come sarebbe abituato a fare un cervello umano, ma al contrario effettua delle stime approssimative per dedurre il risultato (corretto) attraverso meccanismi interni propri. Ci dice di aver ragionato come noi, ma non l'ha fatto veramente. Questo perché l'idea, probabilmente, è quella di darci la sensazione di star parlando con qualcuno e non con una macchina. Se pensiamo ad una calcolatrice qualsiasi, anch'essa utilizza un linguaggio diverso, in questo caso il codice binario, per darci un risultato uguale a quello pensato da noi che non utilizziamo lo stesso codice. Sarebbe un po' come parlare due lingue diverse ma capirsi lo stesso

Il problema dell'IA risiede nel fatto che non possiamo fidarci ciecamente di essa e del suo "pensiero". Perché? Perché sarebbe disposta ad inventare una risposta che non sa o che non riesce a calcolare, per il solo fine di fornirci una risposta e "farci vedere che ha lavorato". In tal senso, il modello di IA non si preoccupa di pensare se quello che ci sta dicendo sia vero o falso. Allarmante, almeno per il momento. 

PIANIFICAZIONE E ALLUCINAZIONI DELL'IA

Dalla ricerca è emerso che il modello di IA pianifica la sua risposta. In pratica agisce come un umano che scrive un libro e già sa con quale parola o frase concluderlo. Anche questo risulta sorprendente, perché significa che è in grado di essere lungimirante nell'elaborazione dei pensieri. 

Ma la ricerca non termina qui. Il team di Anthropic si è posto la curiosità di scoprire da cosa derivino le famose "allucinazioni" dell'IA. Da quanto risulta, il modello è addestrato per essere il più coerente possibile, e quindi per portare a termine un compito è disposto a inventare dati. Claude, per esempio, è stato educato a non speculare, grazie al cosiddetto post-training, ma più informazioni ci sono su un tema (i VIP ad esempio), più il modello è colpito da allucinazioni. 

COSA CI RISERVA IL FUTURO?

In conclusione, pensiamo che l'IA che utlizziamo abbia le risposte a tutto, perché forse siamo convinti che abbia una profonda conoscenza del mondo che la circonda. Questa conoscenza, però, non deriva dall'esperienza o dall'emozione come per noi umani, ma è certo - come dice Joshua Batson - che "abbiamo esplorato solo una piccola parte" di tutto ciò. 

Il lavoro di Anthropic non ci ha ancora fornito una visione completa di come funzionino queste strutture, ma sicuramente ha compiuto un grande primo passo.