DeepSeek R1: Facciamo chiarezza sulle false notizie che circolano sul web.

Nel mondo dell'intelligenza artificiale sta circolando molta disinformazione riguardo DeepSeek R1. È giunto il momento di fare chiarezza su questo importante modello AI che sta conquistando sempre più attenzione.
I costi reali del training
Contrariamente a quanto riportato da alcune fonti, il training non è costato solamente 6 milioni di dollari. Il calcolo computazionale per il modello base (escluso il Reinforcement Learning) ha richiesto ore GPU equivalenti a 5,5 milioni di dollari, senza considerare le ablazioni, i test su scala ridotta e la generazione dei dati.
La realtà aziendale
DeepSeek non è affatto un progetto secondario come alcuni sostengono. L'azienda è di proprietà e sostenuta da High-Flyer, un importante hedge fund cinese che nel 2020 gestiva asset per oltre 7 miliardi di dollari. Il team vanta talenti eccezionali, inclusi medagliati olimpici in matematica, fisica e informatica.
L'infrastruttura tecnologica
Le risorse computazionali di DeepSeek sono ben più ampie di quanto si pensi: l'azienda dispone di circa 50.000 GPU. Il vero DeepSeek R1 è un modello MoE (Mixture of Experts) da 671B parametri che necessita di più di 16 GPU H100 con 80GB di memoria ciascuna per funzionare.
Le prestazioni e le versioni
DeepSeek R1 671B sta dimostrando prestazioni eccellenti. L'azienda lavora da oltre due anni nella ricerca e nello sviluppo open source con risultati notevoli. Esistono sei versioni "distillate" del modello, che sono in realtà fine-tuning di Qwen e Llama su 800.000 campioni, senza Reinforcement Learning. La versione più piccola da 1,5B parametri, pur essendo eseguibile localmente, non è paragonabile al vero R1.
Informazioni per gli utenti
È importante sapere che la versione hosted su chat.deepseek.com potrebbe utilizzare i dati degli utenti per l'addestramento di nuovi modelli, come specificato nei termini di servizio.
Il futuro è open source
La scienza e il software open source porteranno benefici a lungo termine per tutti. Hugging Face sta già lavorando a una pipeline di riproduzione completamente aperta del modello, confermando l'importanza della trasparenza e della collaborazione nel campo dell'AI.