DeepSeek rivela i costi di addestramento del modello R1: 294.000 dollari nello studio su Nature

La società cinese di intelligenza artificiale DeepSeek ha dichiarato di aver speso 294.000 dollari per l’addestramento del proprio modello R1, una cifra significativamente inferiore rispetto ai costi tipicamente associati ai sistemi sviluppati dai concorrenti statunitensi. L’indicazione è presente in un articolo sottoposto a revisione paritaria e pubblicato mercoledì sulla rivista accademica "Nature" un documento che potrebbe ravvivare il dibattito sul ruolo della Cina nella competizione globale per l’innovazione nell’intelligenza artificiale. Questo rappresenta il primo dato ufficiale divulgato dalla società in merito ai costi di sviluppo di R1.

Con sede a Hangzhou, fino a questo momento, l’azienda non aveva reso pubbliche stime sull’investimento necessario per l’addestramento del modello. L’attenzione internazionale su DeepSeek è cresciuta a gennaio, quando l’azienda ha introdotto sistemi di intelligenza artificiale dichiarati più economici rispetto alle opzioni disponibili sul mercato. L’annuncio aveva avuto effetti anche sui mercati finanziari, provocando vendite di titoli tecnologici da parte di investitori preoccupati che le nuove soluzioni potessero minacciare il predominio di colossi affermati del settore, come Nvidia. Da allora, DeepSeek e il suo fondatore, Liang Wenfeng, hanno mantenuto un basso profilo pubblico, limitandosi a diffondere aggiornamenti sporadici sui prodotti sviluppati.

Tuttavia, l’articolo pubblicato su "Nature", che vede Liang tra i coautori, ha rivelato dettagli importanti. Stando al rapporto, il modello R1, pensato per ottimizzare le capacità logiche e di ragionamento, è stato addestrato utilizzando 512 chip Nvidia H800, con un costo complessivo di 294.000 dollari. Va notato che una versione preliminare del documento risalente a gennaio non riportava tali informazioni. Nel campo dell’intelligenza artificiale basata su modelli linguistici di grandi dimensioni, come quelli che alimentano i chatbot avanzati, i costi di training includono le spese necessarie per far funzionare cluster di chip ad alta efficienza per elaborare enormi quantità di dati in periodi prolungati. Ad esempio, Sam Altman, CEO di OpenAI, aveva affermato nel 2023 che l'addestramento dei modelli dell’azienda aveva superato i 100 milioni di dollari, pur senza fornire dettagli sui singoli sistemi.

Le dichiarazioni di DeepSeek relative ai costi e alle tecnologie sollevano interrogativi tra aziende e funzionari statunitensi. Gli H800 impiegati da DeepSeek sono stati sviluppati specificamente da Nvidia per il mercato cinese, in seguito a restrizioni statunitensi imposte nell’ottobre 2022 sull’esportazione dei chip più avanzati come gli H100 e A100 verso la Cina. Nonostante ciò, funzionari statunitensi avevano riferito a giugno che DeepSeek possedeva "grandi quantitativi" di chip H100 importati dopo i divieti. Nvidia aveva risposto dichiarando che la società cinese aveva utilizzato esclusivamente chip H800 acquistati legalmente, confutando ogni accusa sull’impiego illecito di modelli H100.

Inoltre, un documento supplementare associato alla pubblicazione su "Nature" ha confermato che l’azienda utilizza anche chip A100, impiegati nelle fasi preparatorie del progetto. Secondo il rapporto tecnico, i processi iniziali hanno coinvolto GPU A100 per condurre esperimenti su un modello di dimensioni ridotte. Successivamente, il modello R1 è stato addestrato per un totale di 80 ore utilizzando il cluster principale da 512 chip H800. Reuters aveva precedentemente riportato che uno dei motivi dietro la capacità di DeepSeek di attrarre numerosi esperti era la disponibilità di infrastrutture avanzate basate su chip A100: una rarità tra le aziende cinesi.

Il documento pubblicato in "Nature" affronta anche, seppur implicitamente, le accuse ricevute a gennaio da esponenti statunitensi e un consigliere della Casa Bianca riguardo l’ipotetico utilizzo della tecnica di “distillazione” dei modelli OpenAI per creare i propri sistemi. DeepSeek ha invece ribadito che la distillazione è una strategia comune per migliorare le prestazioni dei modelli riducendo al contempo i costi operativi e consentendo una maggiore accessibilità alle tecnologie basate sull’intelligenza artificiale.

Il termine distillazione si riferisce a un processo attraverso il quale un sistema di intelligenza artificiale apprende da un altro sistema, permettendo al modello più recente di trarre vantaggio dall'impegno in termini di tempo e risorse computazionali impiegati per sviluppare il modello precedente, senza incorrere negli stessi costi. Nel mese di gennaio, DeepSeek aveva annunciato di aver utilizzato il modello open source Llama, sviluppato da Meta, per creare alcune versioni distillate dei propri sistemi.

Nel documento pubblicato su "Nature", l'azienda ha inoltre chiarito che i dati di addestramento del modello V3 includevano pagine web raccolte tramite crawling, contenenti "un numero significativo di risposte generate da modelli OpenAI". Ciò potrebbe aver consentito al modello di base di acquisire conoscenze in modo indiretto da altri sistemi avanzati. La società ha tuttavia sottolineato che si trattava di un fatto non intenzionale, ma del tutto accidentale. Al momento della divulgazione della notizia, OpenAI non aveva ancora fornito commenti in risposta alla richiesta pervenuta da Reuters.

DeepSeek rivela i costi di addestramento del modello R1: 294.000 dollari nello studio su Nature

Tag:

Un’intelligenza artificiale etica non nasce per caso

Usa: tagli record agli occupati in ottobre tra IA e risparmi

Quando l'intelligenza artificiale incontra i campi di colza: la scommessa di Dat...

Amazon accende i reattori nucleari per alimentare l’AI: la nuova frontiera dell’...

Responsabilità etiche delle aziende di intelligenza artificiale: sfide e soluzioni

Italia approva la legge sull’intelligenza artificiale: ecco cosa cambia