Google porta gli ingredienti visivi nell'app Gemini per semplificare i video generati dall'AI

Google integra nell'app Gemini la funzione Ingredients to Video, che permette di caricare fino a tre immagini di riferimento per guidare il modello Veo 3.1 nella generazione di clip da otto secondi.

Google porta gli ingredienti visivi nell'app Gemini per semplificare i video generati dall'AI
Condividi:
3 min di lettura

Google ha iniziato il 14 novembre 2025 il rilascio di una nuova funzionalità nell'app Gemini che trasforma il modo in cui gli utenti generano video a partire da immagini. La funzione, denominata Ingredients to Video, consente di caricare fino a tre immagini di riferimento che guidano il modello Veo 3.1 nella creazione di clip video. Il lancio è graduale e raggiungerà la disponibilità completa entro la prossima settimana per gli abbonati ai piani Google AI Plus, Pro e Ultra. La novità trasferisce nell'applicazione mobile e desktop di Gemini una capacità già presente in Flow, lo strumento di filmmaking AI dedicato di Google.

Le immagini di riferimento fungono da ingredienti visivi per il processo di generazione. Gli utenti possono fornire al sistema fotografie di personaggi, oggetti, stili artistici o ambientazioni che Veo deve incorporare nel video finale. Il modello utilizza queste indicazioni visive per mantenere coerenza nei soggetti rappresentati, applicare texture e atmosfere specifiche, e costruire mondi narrativi personalizzati. Secondo quanto riportato da 9to5Google, l'approccio riduce drasticamente la necessità di formulare prompt testuali lunghi e articolati, sostituendo descrizioni complesse con riferimenti visivi immediati.

La funzione risponde a tre esigenze operative specifiche. La prima riguarda la coerenza dei personaggi attraverso scene diverse, evitando variazioni indesiderate nell'aspetto dei soggetti. La seconda concerne il trasferimento di stile, permettendo di applicare all'intera sequenza video elementi come illuminazione, texture e direzione artistica estratti dalle immagini caricate. La terza supporta il world-building, assicurando che oggetti e ambientazioni nel video corrispondano all'immaginario visivo definito dall'utente. Le immagini possono essere fotografie reali o contenuti generati dall'AI tramite Imagen, il modello di sintesi visiva di Google.

Veo 3.1 produce clip ad alta definizione di otto secondi in risoluzione 720p o 1080p, con audio e effetti sonori generati nativamente dal modello. Google ha aggiornato l'interfaccia dell'app per mostrare nel menu Tools quale modello video viene utilizzato per ogni generazione, fornendo trasparenza sul motore sottostante. La capacità di generare video da foto rimane al momento non disponibile nello Spazio economico europeo, in Svizzera e nel Regno Unito.

Nonostante l'espansione delle funzionalità, Veo 3.1 mantiene guardrail più stretti rispetto ai concorrenti come Sora di OpenAI. Il sistema di Google rifiuta di generare determinate tipologie di contenuti, mentre piattaforme rivali adottano restrizioni meno rigide. Tutti i video prodotti da Veo 2 e successive versioni includono SynthID, una filigrana digitale incorporata in ogni frame che identifica i contenuti come generati dall'intelligenza artificiale. Google ha condotto estensivi test di red teaming e valutazioni per prevenire la generazione di materiale che violi le proprie policy.

La strategia di Google nel campo della generazione video appare multipla: offrire potenza computazionale agli sviluppatori tramite l'API Veo 3.1, integrando simultaneamente versioni più accessibili nell'app Gemini per attrarre sottoscrittori. Il mercato della generazione video AI è diventato uno dei campi più competitivi nel settore tecnologico. OpenAI ha catturato l'immaginazione del pubblico con Sora, producendo clip cinematografiche ad alta fedeltà che hanno stabilito nuovi standard. Google risponde con un approccio che privilegia l'accessibilità consumer attraverso Gemini, competendo direttamente con strumenti come Dream Machine di Luma Labs e le funzionalità cameo di Sora 2.

Alla fine, Ingredients to Video non risolve solo un problema tecnico di interfaccia. Rappresenta un cambio di paradigma nel modo in cui gli utenti comunicano con i sistemi di generazione visiva, sostituendo la sintassi testuale con linguaggio iconico. E pone una domanda che nessuna innovazione tecnica può eludere: quando l'AI smette di interpretare parole per interpretare immagini, cosa resta da dire.

Tag: