Nel 2024 e 2025 NVIDIA, Google DeepMind, Figure e 1X hanno annunciato una serie di progetti che portano i modelli linguistici dentro la robotica, promettendo una nuova stagione di macchine capaci di comprendere istruzioni, pianificare azioni e adattarsi al contesto. Gli annunci arrivano tra marzo 2024 e marzo 2025 sui palchi dei grandi eventi e nei comunicati finanziari, tra California e GTC, con l’obiettivo di spostare l’attenzione dai singoli bracci industriali a piattaforme generaliste per compiti variabili. La spinta nasce dall’idea che un modello addestrato su linguaggio, visione e azione possa ridurre la necessità di istruzioni rigide e accelerare l’apprendimento sul campo.
DeepMind ha messo a punto una famiglia di modelli che trasformano segnali visivi e linguistici in azioni, trasferendo competenze da dati web e robotici a situazioni nuove. L’ipotesi di lavoro è che un modello multimodale possa far emergere comportamenti utili anche dove i dati specifici sono scarsi, collegando categorie di oggetti, obiettivi e vincoli fisici. Questo approccio rafforza l’idea di una robotica “di base” simile a quanto i foundation model hanno rappresentato per il testo e le immagini.
NVIDIA ha presentato modelli e stack dedicati ai robot umanoidi, con ambienti di simulazione, dataset sintetici e strumenti per la generazione di policy. L’obiettivo è fornire un punto di partenza comune su cui addestrare abilità generali e poi specializzarle in scenari reali. Se l’hardware migliora e la simulazione copre un ventaglio più ampio di casi limite, il passaggio dal laboratorio alla fabbrica diventa più rapido, almeno per compiti ripetitivi o semi strutturati.
Sul versante delle startup, Figure ha raccolto capitali e partner di peso per sviluppare un umanoide destinato a compiti generici in ambito produttivo e logistico. I video mostrano camminate più naturali e prime manipolazioni, con test pilota in contesti industriali. 1X lavora a piattaforme umanoidi orientate anche all’uso domestico, con roadmap che parlano di dimostrazioni progressive e rollout controllati. La narrativa è ambiziosa e porta con sé l’ecosistema di fornitori, cloud e modelli che hanno accompagnato l’AI generativa in altri settori.
Eppure l’“uomo bicentenario” resta lontano. La locomozione umanoide sta migliorando ma non è risolta per ambienti non preparati. La manipolazione robusta richiede finezza tattile, compliance meccanica e percezione stabile che oggi sono ancora fragili. La pianificazione a lungo orizzonte, con ragionamento e recupero dagli errori, è un problema aperto nei contesti affollati di incertezza. Anche quando i prototipi eseguono sequenze convincienti, la ripetibilità fuori dal set dimostrativo cala. I sistemi rimangono sensibili a occlusioni visive, riflessi, cambi improvvisi di attrito e a tutte le micro variabili che la vita reale introduce senza preavviso.
C’è poi il tema della sicurezza funzionale e normativa. Portare un umanoide in un magazzino popolato da persone significa certificare non solo la qualità del codice ma la capacità di reagire in millisecondi a condizioni impreviste, con log di responsabilità e catene di intervento chiare. La convergenza tra modelli di base, simulazione e dati raccolti in produzione sta accelerando, ma ogni passaggio verso la piena autonomia aggiunge strati di test, audit e governance. Anche il costo totale di proprietà rimane un discrimine: un robot che richiede tecnici specializzati e fermi macchina frequenti non è competitivo con soluzioni più semplici.
Il quadro che emerge tra Stati Uniti ed Europa è quindi duplice. Da un lato esiste un percorso industriale reale, con capitali significativi, prototipi che entrano in fabbrica e piattaforme software che riducono l’attrito tra ricerca e integrazione. Dall’altro lato persiste una distanza tra dimostrazione e servizio affidabile, tra video riuscito e turno di lavoro completo. La direzione è chiara e il passo è più rapido di pochi anni fa, ma la promessa di un assistente generalista in casa o in ufficio richiederà iterazioni tecniche e regolatorie, oltre a una maturazione economica dei modelli di business.
Alla fine, i robot con LLM stanno imparando a parlare, vedere e agire nello stesso spazio. Saranno davvero utili quando impareranno anche a fallire bene, a recuperare con grazia e a convivere con l’imperfezione del mondo, che è il vero esame di ogni intelligenza incarnata.