Wan 2.1: Il rivale open source di Sora che tutti possono utilizzare

Andrea Pizzo

27 Febbraio 2025 - 23:21

0 5

Wan 2.1: Il rivale open source di Sora che tutti possono utilizzare

Immagine generata con intelligenza artificiale

Immaginate di poter creare video professionali con un semplice prompt testuale, modificarli a piacimento e persino aggiungere effetti sonori, il tutto gratuitamente e sul vostro computer. Questo è Wan 2.1, l'ultimo modello di intelligenza artificiale generativa sviluppato da Alibaba che sta facendo parlare di sé come valida alternativa ai colossi proprietari come Sora di OpenAI.

Gratuito e accessibile a tutti
A differenza di molti modelli AI che richiedono abbonamenti costosi o funzionano solo nel cloud, Wan 2.1 è completamente open source e disponibile gratuitamente su Hugging Face e GitHub. Questo significa che sviluppatori, ricercatori e appassionati possono scaricarlo, studiarlo e persino modificarlo secondo le proprie esigenze.

Prestazioni che sfidano i giganti
Secondo Alibaba, Wan 2.1 non solo compete con i modelli proprietari, ma in alcuni casi riesce addirittura a superarli. Stando ai benchmark interni (chiamati "One Bench Dimension" e basati su 1035 prompt), le prestazioni sono impressionanti, anche se, va detto, sarebbe interessante vedere confronti basati su dataset standard e indipendenti.

Cosa può fare Wan 2.1?
Le funzionalità di questo modello sono sorprendentemente versatili. Wan 2.1 eccelle nella creazione di video con movimenti fluidi e realistici. Che si tratti di ballo, ciclisti o combattimenti, i risultati sono impressionanti per la loro naturalezza.
Il modello è anche in grado di simulare fenomeni fisici come il taglio di un pomodoro, il movimento dell'acqua o la tensione di un arco con un livello di realismo sorprendente. Per gli aspiranti registi, Wan 2.1 può generare scene di qualità cinematografica, dall'esplorazione subacquea a scene fantasy.
Una delle caratteristiche più interessanti è la possibilità di modificare i video in modo preciso. La funzione Structure Containance mantiene la struttura del video originale mentre ne modifica lo stile. Con l'Inpainting è possibile selezionare e modificare aree specifiche, ad esempio sostituire un soggetto con un altro. Grazie all'Outpainting, si può estendere il video oltre i suoi confini originali, mentre con Multi-Agor Reference è possibile modificare i video combinando due immagini e un prompt testuale.
Come ciliegina sulla torta, Wan 2.1 può generare effetti sonori per i video, anche per quelli che originariamente ne sono privi. Diventa così praticamente un piccolo studio di produzione in un unico strumento.

Accessibile anche su hardware consumer
Wan 2.1 è disponibile in due versioni. Il modello da 1.3 miliardi di parametri genera video a 480p e richiede almeno 8GB di VRAM, rendendolo eseguibile su GPU consumer come la RTX 4090. Il modello più grande, da 14 miliardi di parametri, offre una qualità superiore fino a 720p ma richiede hardware più potente.
Senza ottimizzazioni, il modello più piccolo impiega circa 4 minuti per generare 5 secondi di video a 480p su hardware consumer.

La tecnologia dietro le quinte
Per i più tecnici, ecco come funziona Wan 2.1. Utilizza Variational Autoencoders (VAE) 3D per codificare e decodificare video di lunga durata. Implementa un processo di Video Diffusion (DiT) nello spazio latente dei VAE. Sfrutta un CLIP encoder (Contrastive Language-Image Pretraining) per condizionare il processo con prompt testuali o immagini. È stato addestrato su un enorme dataset di 1.5 miliardi di video e 10 miliardi di immagini.

La rivoluzione democratica dell'AI generativa
Ciò che rende Wan 2.1 davvero rivoluzionario non è solo la tecnologia, ma l'accessibilità. Alibaba dimostra ancora una volta che anche soluzioni avanzate possono essere messe a disposizione di tutti, e questo approccio democratico potrebbe fare la differenza nel panorama dell'intelligenza artificiale, permettendo a sviluppatori indipendenti, piccole aziende e creativi di tutto il mondo di sfruttare questi strumenti senza barriere economiche o tecniche.

Alibaba lancia gli occhiali smart AI e sfida ...

Google Opal: creare app senza scrivere codice...

Una tavola periodica per l’AI? Al MIT nasce l...

La nuova e-Novia scommette sulla Physical AI:...

IdentifAI, lo scudo italiano contro i deepfake

L'AGCM contro Meta: indagine contro il chatbo...

Sam Altman e l'IA customer service: settore a...

Trump e l’AI, la nuova dottrina del potere

Se l’AI ci toglie la dignità, è l’AI a dover ...

La politica dell’intelligenza artificiale. Gl...

AIED 2025 e l'IA nell'insegnamento: parola ai...

AIED 2025: L'IA che trasforma l'educazione sc...

L'IA nelle scuole italiane: una rivoluzione i...

Versailles si muove ancora con la realtà aume...

Spielberg, l’intelligenza artificiale non sa ...

Etica dell'informazione: la sfida contemporan...

SEOZoom Day 2025

All AI 2025, quando l’intelligenza artificial...

IA in mano alle donne: a Bari il workshop 202...

Dubai AI Festival: ritorna l'evento di punta ...

PMI e Intelligenza Artificiale: il paradosso ...

L’intelligenza che ascolta il mare, quando l...

Google lancia MedGemma: modello LLM specializ...

INTELLIGENZA ARTIFICIALE E PACCIAMATURA “VIVA...

Salvare le balene con l’AI: dati e algoritmi ...

Calcio: ecco come viene utilizzata l'intelli...

Sport: la lega calcistica francese annuncia p...

Wan 2.1: Il rivale open source di Sora che tutti possono utilizzare

Tag:

Perché l'AI non può sostituire la voce umana, l'appello dei doppiatori italiani

Amazon rivoluzionaria Alexa con l'intelligenza di Anthropic