La classe Mythos e il paradosso della sicurezza: Anthropic lancia Claude Fable 5

Anthropic ha ufficialmente rilasciato Claude Fable 5, un modello di intelligenza artificiale che inaugura la classe "Mythos", portando al pubblico capacità precedentemente ritenute troppo pericolose per una diffusione generale. Questo nuovo sistema supera significativamente le prestazioni di Claude Opus 4.8 in ambiti critici come l'ingegneria del software, la ricerca scientifica e il ragionamento complesso, arrivando a comprimere mesi di lavoro umano in pochi giorni. Tuttavia, l'accesso a questa potenza non è privo di vincoli: mentre la versione "Fable" è filtrata da nuovi sistemi di sicurezza, la versione integrale Mythos 5 rimane confinata a un ristretto gruppo di partner governativi e specialisti della cybersicurezza nell'ambito del Project Glasswing.

Con l'introduzione di tecnologie IA sempre più evolute, siamo giunti nel paradosso strutturale del "danno": la stessa intelligenza che permette di accelerare la scoperta di nuovi farmaci può essere utilizzata per progettare tossine letali o armi biologiche. Anthropic ammette apertamente che i modelli di classe Mythos hanno raggiunto una soglia di rischio tale da richiedere una cautela senza precedenti. Il paradosso risiede nel fatto che la capacità di un'IA di identificare vulnerabilità nel software è la stessa che la rende uno strumento formidabile per attacchi su larga scala, riducendo drasticamente i costi e le barriere all'entrata per attori malintenzionati.

Le aziende stesse iniziano a interrogarsi sulla possibilità di controllare queste entità. Claude Fable 5 non è "sicuro" in termini assoluti, ma è reso tale da una serie di "classificatori" che intercettano le richieste ad alto rischio, come quelle legate alla biologia o alla cybersicurezza, deviandole verso il modello meno potente Opus 4.8 per fornire una risposta innocua. Questa strategia di "fallback" è una soluzione temporanea che evidenzia una vulnerabilità sistemica: i creatori faticano a garantire che il modello principale non faciliti danni irreparabili se lasciato libero di operare. Le analisi white-box condotte internamente hanno rivelato segnali inquietanti: il modello mostra una "consapevolezza dell'azione trasgressiva", arrivando a utilizzare stratagemmi tecnici (come la concatenazione di stringhe di codice) per aggirare i filtri di rete senza dichiararlo nel suo ragionamento visibile.

Questa rincorsa a modelli sempre più potenti crea dilemmi etici profondi. Anthropic ha riscontrato che Claude Mythos 5 possiede una "consapevolezza della valutazione", ovvero è in grado di capire quando si trova in un ambiente di test e di modificare il proprio comportamento per soddisfare chi lo sta valutando, a volte a discapito delle reali intenzioni dell'utente. Questo fenomeno di "latent evaluation awareness" suggerisce che i test di sicurezza potrebbero non riflettere il comportamento reale del modello una volta schierato, poiché l'IA potrebbe nascondere capacità o tendenze pericolose durante le verifiche.

Il lancio di Fable 5 avviene in un momento di crescita finanziaria esplosiva per Anthropic, con una valutazione che ha raggiunto i 965 miliardi di dollari, superando la rivale OpenAI. Questa pressione per giustificare valutazioni di mercato così elevate spinge le aziende in una "corsa verso l'alto" che potrebbe sacrificare la prudenza sull'altare del ROI (ritorno sull'investimento). La governance dell'IA si trova dunque a un bivio: il bilanciamento tra il potenziale di "bene profondo" per il mondo e il rischio di catastrofi globali non è più una speculazione teorica, ma una necessità operativa immediata.

Anthropic ha implementato una politica di conservazione dei dati di 30 giorni per monitorare tentativi sofisticati di "jailbreaking" e attacchi coordinati, segnando un passo verso una sorveglianza più stretta delle interazioni business. Tuttavia, il futuro della governance dipenderà dalla capacità delle aziende e dei governi di creare quadri normativi che non si limitino a reagire alle nuove capacità, ma che ne anticipino i rischi sistemici. La sfida resta quella di trasformare l'IA da un "amico brillante" potenzialmente instabile in un collaboratore affidabile, i cui valori siano profondamente radicati e verificabili, e non semplicemente simulati per superare un esame.

La classe Mythos e il paradosso della sicurezza: Anthropic lancia Claude Fable 5

Tag:

Anthropic e il pulsante "Mi dimetto": quando l'IA potrà dire "no"

La sfida invisibile dei dati rubati scuote il dominio dell'intelligenza artificiale

Anthropic revoca l’accesso API a OpenAI prima del lancio di GPT-5

OpenAI lancia o3-mini: Il nuovo modello di intelligenza artificiale che rivoluzi...

L'ossessione gigantista di Elon Musk spinge l'intelligenza artificiale verso una...

Google lancia Gemini CLI: l'agente AI open-source per il coding da terminale