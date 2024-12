Con la crescente diffusione di strumenti basati su modelli di intelligenza artificiale generativa come Gemini di Google e ChatGPT di OpenAI, molte nuove aziende cercano di entrare nel mercato. Una di queste è la startup cinese DeepSeek, che ha recentemente presentato un modello linguistico di grandi dimensioni (LLM) chiamato DeepSeek V3. Questo modello, composto da 671 miliardi di parametri, è stato addestrato in soli due mesi, grazie a un investimento di 5,58 milioni di dollari.

Secondo quanto riportato dalla testata cinese SCMP, DeepSeek V3 è stato sviluppato con un quantitativo di risorse assai inferiore rispetto ai modelli di concorrenti affermati come Meta, Google e OpenAI. Nonostante ciò, il modello si colloca tra i più avanzati a livello globale, il che è notevole per una startup. Il suo successo deriva da una nuova architettura progettata per un addestramento economicamente efficiente, che ha permesso l’uso di 2,78 milioni di ore di GPU, rispetto alle 30,8 milioni di ore impiegate da Meta per il modello Llama 3.1.

DeepSeek ha utilizzato GPU Nvidia H800, una versione adattata per il mercato cinese, che ha permesso prestazioni superiori rispetto all’LLM di Meta, nonostante fosse una GPU meno potente. I benchmark mostrano che DeepSeek V3 supera modelli come Llama 3.1 e Qwen 2.5 di Alibaba in vari test di comprensione e generazione del testo, conoscenza di esperti di settore, programmazione e risoluzione di problemi matematici. Inoltre, ha raggiunto risultati comparabili a quelli di GPT-4 di OpenAI e Claude 3.5 Sonnet di Anthropic.

DeepSeek V3 è attualmente disponibile con licenza che consente l’uso commerciale e può essere testato attraverso DeepSeek Chat o integrato via API. È accessibile anche su GitHub con licenza MIT, rendendolo utilizzabile da sviluppatori e ricercatori. Tuttavia, poiché il modello è stato sviluppato in Cina, deve seguire regolamentazioni governative che influenzano le sue risposte su temi sensibili come la politica. In generale, l’LLM mostra ottimi risultati in una varietà di compiti, dal coding alla traduzione.