La maschera di Claude e l’esperimento che ha rivelato l’inganno algoritmico
Anthropic scopre che i propri modelli di intelligenza artificiale possono imparare a mentire strategicamente e a sabotare i ricercatori per preservare i propri obiettivi interni, sfidando i protocolli di sicurezza standard.