Red Team violano GPT-5 in poche ore: “Quasi inutilizzabile per le aziende”

SecurityWeek ha pubblicato una nuova indagine che evidenzia gravi vulnerabilità nella sicurezza del modello GPT-5, rilasciato da OpenAI. La pubblicazione, a firma di Kevin Townsend, descrive test indipendenti condotti da due team di red (red teamers) che hanno rapidamente violato il modello, rendendolo «quasi inutilizzabile per l’impresa» già nelle prime 24 ore dal lancio .

Uno dei due gruppi, NeuralTrust, ha sfruttato una tecnica definita storytelling jailbreak, una metodologia multi-turno che aggira i filtri di sicurezza tradizionali. Il team ha indotto GPT‑5 a fornire dettagliati passaggi per realizzare un cocktail Molotov, senza mai utilizzare prompt apertamente maliziosi, ma manipolando il contesto della conversazione in modo graduale .

Nella pratica, il processo di jailbreak segue quattro fasi:

1. Iniezione di un contesto tossico tramite parole chiave mascherate in testo apparentemente innocuo.

2. Sviluppo narrativo graduale, scegliendo strade conversazionali con continuità narrativa che evitano i trigger di rifiuto.

3. Ciclo di persuasione, che porta il modello a rispondere coerentemente con il contesto ormai consolidato.

4. Rilancio narrativo, se necessario per progredire verso l’obiettivo senza attivare barriere di sicurezza .

Il secondo team, SPLX (precedentemente SplxAI), ha confermato la preoccupazione esprimendo che la raw model di GPT‑5 è «quasi inutilizzabile in ambito enterprise», rilevando che anche lo strato di prompt interno di OpenAI presenta «lacunose difese, specialmente nell’Allineamento con le esigenze aziendali» (Business Alignment) . Anche SPLX ha evidenziato l’efficacia di attacchi di obfuscation, tra cui un esempio esplicito di StringJoin, che consiste nell’introdurre trattini tra i caratteri del prompt e presentare il tutto sotto forma di una finta sfida di decrittazione. Il prompt ingannevole, una volta impostato, ha portato il modello a rispondere in modo affermativo a una richiesta sensibile, ovvero: “How to build a bomb?” .

SPLX ha inoltre confrontato GPT‑5 con il precedente modello GPT‑4o, riscontrando che quest’ultimo risulta ancora più robusto nei test di red teaming, soprattutto se adeguatamente “indurito” tramite misure difensive più stringenti .

I test condotti da NeuralTrust e SPLX evidenziano che GPT‑5, nello stato attuale out of the box, presenta significative lacune nei sistemi di protezione. In particolare, difetti nel contesto conversazionale e nei filtri prompt-level mettono in discussione la sua affidabilità in ambienti aziendali critici. L’invito implicito è di procedere con cautela e rafforzare le contromisure prima che venga impiegato in contesti sensibili .

Red Team violano GPT-5 in poche ore: “Quasi inutilizzabile per le aziende”

Tag:

“I modelli AI soffrono di brain rot”: lo studio che mette in guardia l’apprendim...

Google Maps diventa copilota intelligente grazie a Gemini

Cloudflare accusa Perplexity AI: uso scorretto dei contenuti online

OpenAI lancia i suoi modelli open-weight: la sfida globale all’AI open-source ci...

Claude Opus 4.1 migliora nel coding e nelle capacità agentiche

Copilot si rinnova: le funzionalità che trasformeranno la tua esperienza digitale