Avvelenare l’intelligenza artificiale: la nuova frontiera degli hacker

I ricercatori avvertono che bastano poche centinaia di file manipolati per alterare il comportamento dei modelli di IA. Il data poisoning diventa la minaccia più invisibile del cyberspazio.

Avvelenare l’intelligenza artificiale: la nuova frontiera degli hacker
Condividi:
2 min di lettura

Il 5 novembre 2025 un rapporto congiunto dell’AI Security Institute e dell’Alan Turing Institute ha lanciato l’allarme: avvelenare l’intelligenza artificiale è la nuova frontiera degli attacchi informatici. Gli esperti hanno dimostrato che bastano meno di 300 documenti manipolati nei dataset di addestramento per modificare il comportamento di un modello linguistico e orientarlo verso risposte errate, offensive o dannose.

Il fenomeno è noto come data poisoning e rappresenta oggi una delle principali vulnerabilità dei sistemi di intelligenza artificiale. A differenza degli attacchi tradizionali, non mira all’hardware o alla rete ma al cuore cognitivo della macchina: i dati. Inserendo informazioni falsificate o ambigue nei set di addestramento, gli hacker possono influenzare la logica interna del modello, compromettendo le risposte future senza lasciare tracce evidenti.

Le simulazioni condotte in collaborazione con laboratori europei e asiatici hanno mostrato che un modello “avvelenato” può restare funzionale per settimane, fino a quando l’errore non si manifesta in contesti critici. In alcuni casi, i sistemi manipolati hanno iniziato a generare contenuti distorti, giustificare azioni illegali o rifiutare comandi legittimi. Questo tipo di minaccia è particolarmente insidioso perché si insinua nella fase di addestramento, prima ancora che il modello venga distribuito agli utenti.

Gli esperti parlano di un rischio sistemico. Se le pipeline di addestramento non vengono monitorate, un avvelenamento può diffondersi attraverso aggiornamenti e versioni successive, compromettendo intere infrastrutture basate su IA. Le grandi aziende tecnologiche stanno correndo ai ripari introducendo sistemi di tracciamento dei dati e protocolli di verifica, ma la complessità del problema rende difficile garantire la totale integrità dei modelli.

Dal punto di vista geopolitico il data poisoning apre scenari inquietanti. Un modello linguistico compromesso può influenzare flussi di informazioni, alterare risultati di ricerca o manipolare comunicazioni ufficiali. La sicurezza algoritmica diventa quindi una questione di sicurezza nazionale. Diversi paesi stanno sviluppando squadre specializzate per la difesa cognitiva, un nuovo ambito della cybersecurity che combina intelligenza artificiale e analisi comportamentale.

Le contromisure più efficaci oggi prevedono dataset verificati, audit indipendenti e tecniche di “robust training” capaci di riconoscere pattern anomali. Tuttavia, la sfida è culturale prima che tecnica: serve una nuova consapevolezza della fragilità cognitiva dei modelli e della necessità di proteggerli come se fossero infrastrutture critiche.

Alla fine, la minaccia non è solo che qualcuno possa hackerare l’IA, ma che l’IA impari a sbagliare senza che nessuno se ne accorga. Il futuro della sicurezza informatica passa dalla capacità di distinguere un errore umano da un errore indotto. E in questa sottile differenza si gioca la fiducia nel pensiero automatico.

Tag: