GPT-4.5 supera il test di Turing con il 73% di successo.

4 Aprile 2025 - 23:45
22 Aprile 2025 - 20:21
 0  5
GPT-4.5 supera il test di Turing con il 73% di successo.
Immagine generata con intelligenza artificiale

OpenAI torna a far parlare del suo ultimo LLM (large language model) GPT-4.5, che con grande stupore di tutti (persino dei ricercatori), supera il test di Turing con un risultato sorprendente.
Lo studio condotto nell’Università di San Diego ha mostrato che in molti casi (73%) i partecipanti hanno scambiato l’IA per un essere umano, surclassando anche le interazioni con persone reali. Un punto di svolta per la nuova era delle IA.

Ma partiamo dall’inizio. Il test, ideato nel 1950 dal matematico Alan Turing, è un “esame finale” per valutare se una macchina possa ingannare un umano facendogli credere di essere anch’essa umana. Il test è semplice: un valutatore interagisce con due soggetti nascosti, uno umano e uno artificiale. Se non riesce a distinguerli, la macchina supera la prova. Non si tratta di misurare la coscienza o il pensiero, ma la capacità di imitare in modo convincente il comportamento umano. E GPT-4.5, a quanto pare, ha fatto molto di più che imitare.

Lo studio: umani vs AI, e il vincitore è… un algoritmo
I ricercatori hanno coinvolto due gruppi di valutatori — studenti universitari e utenti della piattaforma Prolific — in una serie di chat testuali. Ogni partecipante doveva interagire con un umano e un’AI, per poi indicare chi fosse “vero”. Tra i sistemi messi alla prova c’erano ELIZA (il celebre chatbot degli anni ’60), GPT-4o, LLaMa 3.1 di Meta e, ovviamente, GPT-4.5. Quest’ultimo è stato testato in due versioni: una neutrale e una con una “personalità” costruita per sembrare più umana.

Il risultato? GPT-4.5, soprattutto nella versione con personalità, ha stravinto. Il 73% dei valutatori ha scelto l’AI come “umano”, superando di gran lunga i partecipanti in carne e ossa. Un dato che fa riflettere: quasi tre volte su quattro, un algoritmo è parso più autentico di una persona.

Il segreto? Imperfezioni studiate a tavolino
Cosa ha reso GPT-4.5 così convincente? Non solo la sua capacità di generare testi coerenti, ma anche dettagli sottili: esitazioni calibrate, risposte meno perfette, piccole dosi di cortesia o umorismo. Insomma, l’AI ha imparato a simulare quelle imperfezioni che rendono un dialogo “umano”. I ricercatori hanno notato che aggiungere una personalità definita (ad esempio, toni colloquiali o riferimenti a esperienze di vita) ha aumentato drasticamente l’effetto realistico.

I grafici dello studio mostrano chiaramente il dominio di GPT-4.5: nei due gruppi di valutatori, il modello con personalità ha ottenuto i punteggi più alti, mentre i partecipanti hanno espresso un livello di sicurezza sorprendente nelle loro scelte errate. Persino gli studenti, teoricamente più preparati, sono caduti nella trappola.

E ora? Domande (molto) scomode
Se un’AI può sembrare più umana di un umano, cosa succederà alla nostra fiducia nella tecnologia? Le implicazioni sono enormi. Servirà etichettare obbligatoriamente le AI nei social network o nei servizi clienti? Riusciremo ancora a distinguere un amico virtuale da uno reale? E cosa accade quando un chatbot diventa più empatico di un collega o di un familiare?

Il superamento del test di Turing da parte di GPT-4.5 non significa che l’AI abbia sviluppato una coscienza, ma dimostra che ha raggiunto un livello di sofisticatezza senza precedenti. Per gli esperti, è un campanello d’allarme: servono regole chiare per gestire un futuro in cui le macchine non si limitano a calcolare, ma sanno anche fingere di essere come noi.