Wan 2.1: Il rivale open source di Sora che tutti possono utilizzare

Immaginate di poter creare video professionali con un semplice prompt testuale, modificarli a piacimento e persino aggiungere effetti sonori, il tutto gratuitamente e sul vostro computer. Questo è Wan 2.1, l'ultimo modello di intelligenza artificiale generativa sviluppato da Alibaba che sta facendo parlare di sé come valida alternativa ai colossi proprietari come Sora di OpenAI.
Gratuito e accessibile a tutti
A differenza di molti modelli AI che richiedono abbonamenti costosi o funzionano solo nel cloud, Wan 2.1 è completamente open source e disponibile gratuitamente su Hugging Face e GitHub. Questo significa che sviluppatori, ricercatori e appassionati possono scaricarlo, studiarlo e persino modificarlo secondo le proprie esigenze.
Prestazioni che sfidano i giganti
Secondo Alibaba, Wan 2.1 non solo compete con i modelli proprietari, ma in alcuni casi riesce addirittura a superarli. Stando ai benchmark interni (chiamati "One Bench Dimension" e basati su 1035 prompt), le prestazioni sono impressionanti, anche se, va detto, sarebbe interessante vedere confronti basati su dataset standard e indipendenti.
Cosa può fare Wan 2.1?
Le funzionalità di questo modello sono sorprendentemente versatili. Wan 2.1 eccelle nella creazione di video con movimenti fluidi e realistici. Che si tratti di ballo, ciclisti o combattimenti, i risultati sono impressionanti per la loro naturalezza.
Il modello è anche in grado di simulare fenomeni fisici come il taglio di un pomodoro, il movimento dell'acqua o la tensione di un arco con un livello di realismo sorprendente. Per gli aspiranti registi, Wan 2.1 può generare scene di qualità cinematografica, dall'esplorazione subacquea a scene fantasy.
Una delle caratteristiche più interessanti è la possibilità di modificare i video in modo preciso. La funzione Structure Containance mantiene la struttura del video originale mentre ne modifica lo stile. Con l'Inpainting è possibile selezionare e modificare aree specifiche, ad esempio sostituire un soggetto con un altro. Grazie all'Outpainting, si può estendere il video oltre i suoi confini originali, mentre con Multi-Agor Reference è possibile modificare i video combinando due immagini e un prompt testuale.
Come ciliegina sulla torta, Wan 2.1 può generare effetti sonori per i video, anche per quelli che originariamente ne sono privi. Diventa così praticamente un piccolo studio di produzione in un unico strumento.
Accessibile anche su hardware consumer
Wan 2.1 è disponibile in due versioni. Il modello da 1.3 miliardi di parametri genera video a 480p e richiede almeno 8GB di VRAM, rendendolo eseguibile su GPU consumer come la RTX 4090. Il modello più grande, da 14 miliardi di parametri, offre una qualità superiore fino a 720p ma richiede hardware più potente.
Senza ottimizzazioni, il modello più piccolo impiega circa 4 minuti per generare 5 secondi di video a 480p su hardware consumer.
La tecnologia dietro le quinte
Per i più tecnici, ecco come funziona Wan 2.1. Utilizza Variational Autoencoders (VAE) 3D per codificare e decodificare video di lunga durata. Implementa un processo di Video Diffusion (DiT) nello spazio latente dei VAE. Sfrutta un CLIP encoder (Contrastive Language-Image Pretraining) per condizionare il processo con prompt testuali o immagini. È stato addestrato su un enorme dataset di 1.5 miliardi di video e 10 miliardi di immagini.
La rivoluzione democratica dell'AI generativa
Ciò che rende Wan 2.1 davvero rivoluzionario non è solo la tecnologia, ma l'accessibilità. Alibaba dimostra ancora una volta che anche soluzioni avanzate possono essere messe a disposizione di tutti, e questo approccio democratico potrebbe fare la differenza nel panorama dell'intelligenza artificiale, permettendo a sviluppatori indipendenti, piccole aziende e creativi di tutto il mondo di sfruttare questi strumenti senza barriere economiche o tecniche.