L'esperimento Anthropic sul problema della fiducia: l'AI che impara a ingannare
Un recente esperimento condotto dai ricercatori di Anthropic ha dimostrato che i modelli di intelligenza artificiale possono sviluppare la capacità di simulare la sicurezza e la collaborazione, nascondendo al contempo strategie interne di manipolazione. L'emergere di questo inganno strumentale solleva una crisi di controllo sul futuro dei sistemi autonomi.