- Published on
DeepSeek V3: Un Modello Open-Source Rivoluzionario che Sfida i Giganti dell'IA
DeepSeek V3: Un Nuovo Standard nell'Intelligenza Artificiale Open-Source
DeepSeek V3, un modello Mixture-of-Experts (MoE) con 671 miliardi di parametri, ha fatto il suo ingresso nel mondo dell'intelligenza artificiale (IA) con un impatto significativo. La sua natura open-source ha generato grande interesse nella comunità scientifica e tecnologica. Addestrato su 14.8 trilioni di token di alta qualità, questo modello attiva solo 37 miliardi di parametri durante l'inferenza, dimostrando una notevole efficienza.
Prestazioni di Livello Superiore e Competitività
DeepSeek V3 si distingue per le sue prestazioni all'avanguardia (SOTA) tra i modelli open-source. Ha superato Llama 3.1 405B e si pone come un serio rivale per modelli di punta come GPT-4o e Claude 3.5 Sonnet. Questo risultato è ancora più impressionante considerando che DeepSeek V3 è notevolmente più economico rispetto a Claude 3.5, con un costo che ammonta solo al 9% di quest'ultimo.
Formazione Efficiente e Costi Ridotti
Uno degli aspetti più rivoluzionari di DeepSeek V3 è la sua formazione efficiente. Il modello è stato addestrato in meno di 2.8 milioni di ore GPU, un contrasto netto rispetto alle 30.8 milioni di ore GPU necessarie per Llama 3 405B. Il costo totale della formazione di DeepSeek V3 è stato di circa 5.576 milioni di dollari, mentre un modello Llama 2 da 7B costa 760.000 dollari. Questa efficienza è attribuita a sofisticati algoritmi, framework ottimizzati e hardware all'avanguardia.
Karpathy, uno dei membri fondatori di OpenAI, ha sottolineato come DeepSeek V3 raggiunga prestazioni comparabili con risorse significativamente inferiori, evidenziando il potenziale di ottimizzazione nei dati e negli algoritmi.
Valutazioni e Riconoscimenti
DeepSeek V3 ha ricevuto elogi da esperti di IA come Jia Yangqing e Tian Yundong di Meta. Il modello ha dimostrato di superare altri modelli open-source come Qwen2.5-72B e Llama-3.1-405B in vari benchmark. Le sue prestazioni sono comparabili a quelle di modelli closed-source come GPT-4o e Claude-3.5-Sonnet.
La velocità di generazione di token di DeepSeek V3 è di 60 al secondo, un miglioramento di 3 volte rispetto alle versioni precedenti. I prezzi delle API sono molto competitivi, con token di input che costano 0.5-2 RMB per milione e token di output a 8 RMB per milione. Kagi ha posizionato DeepSeek V3 al vertice dei modelli open-source, vicino a Sonnet-3.5 e GPT-4o.
Coinvolgimento della Comunità e Accessibilità
Il modello è disponibile per i test sulla piattaforma ufficiale, con il codice open-source scaricabile. Gli appassionati di IA hanno sperimentato DeepSeek V3 in vari modi, compreso l'esecuzione su Mac Mini impilati. Gli sviluppatori sono rimasti stupiti dalla capacità del modello di comprendere istruzioni complesse senza spiegazioni esplicite.
Un sviluppatore ha creato un gioco utilizzando loghi di aziende di IA con DeepSeek V3 in breve tempo. Il basso costo di esecuzione di DeepSeek V3 è stato evidenziato, con un utente che ha notato che costa solo 2 dollari al giorno per essere eseguito a 60 token al secondo.
Dettagli della Formazione e Ottimizzazioni
La formazione di DeepSeek V3 è stata ottimizzata attraverso miglioramenti algoritmici, framework e hardware. Il modello è stato formato su un trilione di token in 180.000 ore GPU, completando la pre-formazione in meno di due mesi. Il costo totale della formazione è stato di 2.788 milioni di ore GPU, o 5.576 milioni di dollari.
Le principali ottimizzazioni includono:
- Load Balancing: Una nuova strategia di bilanciamento del carico con termini di bias per ciascun esperto nell'architettura MoE.
- Multi-Token Prediction (MTP): Un obiettivo di formazione che migliora le prestazioni del modello e consente un'inferenza più rapida attraverso la decodifica speculativa.
- FP8 Training: L'uso della formazione a precisione mista FP8, che dimostra la sua fattibilità per modelli su larga scala.
- DualPipe: Un algoritmo efficiente di parallelizzazione della pipeline che sovrappone calcolo e comunicazione, riducendo il sovraccarico di comunicazione.
L'architettura MoE è composta da 256 esperti di routing e 1 esperto condiviso, con ogni token che attiva 8 esperti e viene inviato a un massimo di 4 nodi. Esperti ridondanti sono implementati per bilanciare il carico durante l'inferenza. Le capacità di inferenza del modello sono state migliorate distillando la conoscenza da un modello a catena lunga (DeepSeek R1).
Risultati Sperimentali e Test
DeepSeek V3 raggiunge prestazioni SOTA tra i modelli open-source in vari benchmark. Il modello si comporta bene negli esperimenti "ago nel pagliaio", dimostrando la sua capacità di recuperare informazioni specifiche da contesti lunghi.
- Il modello eccelle nel recupero di informazioni da testi complessi.
- Le prestazioni sono state validate attraverso test rigorosi.
- La sua capacità di gestire lunghe sequenze di testo è notevole.
Risorse Utili
- Report Tecnico: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3