Anthropic e il pulsante "Mi dimetto": quando l'IA potrà dire "no"

L'idea di Amodei: un'IA che può dire "basta"

"Probabilmente questa è la cosa più folle che dirò," ha premesso Amodei, ex ricercatore di OpenAI e ora a capo di Anthropic, azienda sostenuta da miliardi di investimenti di Google e Amazon.
Il concetto è semplice ma rivoluzionario: incorporare nei sistemi di IA avanzati una funzione che permetta loro di "dimettersi" da un compito. "Se un modello ha un'esperienza negativa e 'odia' il compito assegnato, potrebbe avere la possibilità di premere il pulsante per rifiutarlo," ha spiegato Amodei.
Secondo lui, questo meccanismo potrebbe rivelare cosa un sistema di IA "preferisce" o trova difficile, offrendo uno sguardo sui suoi limiti e sui comportamenti emergenti. "Se notiamo che i modelli premono spesso questo pulsante per certi compiti particolarmente sgradevoli, forse dovremmo approfondire la questione," ha aggiunto.

Questioni filosofiche: un rifiuto implica coscienza?
L'idea di un'IA che dice "no" solleva domande profonde. Le macchine sono sempre state considerate strumenti privi di autonomia, semplici estensioni della volontà umana. Ma un pulsante "Mi dimetto" suggerisce qualcosa di più: un sistema capace di esprimere preferenze, forse persino una forma primitiva di volontà.
Se un'IA rifiuta un compito, sta davvero "provando disagio" o sta solo eseguendo un algoritmo? E se può esprimere disapprovazione, dovremmo considerarla come faremmo con un lavoratore umano?

Rifiuto programmato vs. rifiuto "sentito"
È importante notare che il rifiuto di un'IA non implica necessariamente consapevolezza. Già oggi, chatbot come ChatGPT, Gemini o Claude si rifiutano di generare contenuti violenti o osceni, ma non perché "provano disagio" - stanno semplicemente seguendo istruzioni programmate.
Il pulsante immaginato da Amodei ci spinge però a considerare l'IA come qualcosa di più di una "scatola nera" e a riconsiderare i timori verso un'intelligenza artificiale che potrebbe sviluppare una propria autonomia.

Il paradosso del bias
C'è un problema fondamentale: l'IA è addestrata su dati generati dagli esseri umani, pieni delle loro inclinazioni ed emozioni. Questo crea un paradosso: se un'IA "si dimette", sta esprimendo una volontà propria o sta semplicemente riflettendo pregiudizi appresi dai dati?
Immaginiamo un'IA che rifiuta di analizzare immagini di disastri: lo fa perché ha sviluppato un "disagio" o perché ha imparato dai dati che tali immagini sono considerate sensibili dagli umani?

Una macchina può ribellarsi?
Come ricorda lo psicologo Paolo Legrenzi nel suo saggio "L'intelligenza del futuro", l'idea di una macchina che si ribella (come HAL 9000 in "2001: Odissea nello spazio") resta difficile da immaginare fuori dalla fantascienza.
"Le macchine non si ammalano né si ribellano, ma si rompono," scrive Legrenzi. L'autonomia dei computer è un equilibrio delicato: devono averne abbastanza per aiutarci, ma le loro prestazioni dovrebbero restare distinguibili da quelle umane.
La sfida più grande nel costruire IA con capacità simili a quelle umane sta nel creare sistemi che comprendano la relazione tra la propria "mente" e quella altrui - ciò che definiamo coscienza. Ma una macchina potrebbe essere programmata per risolvere questi problemi senza rendersi conto delle operazioni che esegue: "darà risposte esatte senza sapere di averle date, quasi fosse un pappagallo."
La provocazione di Amodei ci invita a riflettere su cosa significherà convivere con intelligenze artificiali sempre più sofisticate, e su dove tracciare il confine tra automazione e autonomia.

Anthropic e il pulsante "Mi dimetto": quando l'IA potrà dire "no"

Tag:

Si intensifica la tensione tra Musk e OpenAI: e ce n’è anche per Apple

ChatGPT "Se fossi umano per un giorno"

SoftBank vs OpenAI, la sfida miliardaria che potrebbe riscrivere il futuro dell'...

ChatGPT esposto: sette vulnerabilità che mettono a rischio i dati degli utenti

Ripensare la lingua dei prompt IA: perché il polacco batte l’inglese nei modelli...

Gemini Drops: il mensile di Google che ti spiega (bene) cosa può fare la sua AI