La complessità del linguaggio inganna l'intelligenza artificiale
Una recente ricerca ha dimostrato che i filtri di sicurezza dei Large Language Models possono essere bypassati con minimi sforzi, sfruttando la complessità stilistica e l'ambiguità del linguaggio. La scoperta evidenzia il fallimento dell'allineamento difettoso e l'ironia che il linguaggio umano sia il vettore di attacco creativo più efficace.