- Published on
DeepSeek V3: Een baanbrekend open-source model in AI
Overzicht van DeepSeek V3
DeepSeek V3, een 671 miljard parameter Mixture-of-Experts (MoE) model, is recentelijk open-source gemaakt en heeft veel aandacht getrokken in de AI-gemeenschap. Dit model is getraind op een enorme dataset van 14,8 biljoen hoogwaardige tokens, waarbij tijdens de inferentie slechts 37 miljard parameters worden geactiveerd. Deze aanpak leidt tot een indrukwekkende state-of-the-art (SOTA) prestatie onder open-source modellen. Het overtreft modellen zoals Llama 3.1 405B en evenaart de prestaties van topmodellen zoals GPT-4o en Claude 3.5 Sonnet. Een belangrijk voordeel van DeepSeek V3 is de aanzienlijk lagere kosten, met slechts 9% van de kosten van Claude 3.5 Sonnet.
Kosteneffectieve training
De training van DeepSeek V3 vereiste minder dan 2,8 miljoen GPU-uren, wat een aanzienlijk verschil is met de 30,8 miljoen GPU-uren die nodig waren voor Llama 3 405B. De totale trainingskosten voor DeepSeek V3 bedroegen ongeveer **760.000 kostte. Deze kostenefficiëntie is te danken aan geoptimaliseerde algoritmen, frameworks en hardware. Karpathy, een medeoprichter van OpenAI, merkte op dat DeepSeek V3 vergelijkbare prestaties levert met aanzienlijk minder middelen, wat het potentieel voor optimalisatie in data en algoritmen benadrukt.
Prestaties en Evaluatie
DeepSeek V3 heeft lovende kritieken ontvangen van AI-experts zoals Jia Yangqing en Tian Yundong van Meta. Het model presteert beter dan andere open-source modellen zoals Qwen2.5-72B en Llama-3.1-405B in verschillende benchmarks. De prestaties zijn vergelijkbaar met topmodellen zoals GPT-4o en Claude-3.5-Sonnet. DeepSeek V3 genereert tokens met een snelheid van 60 per seconde, wat een drievoudige snelheidsverbetering is. De API-prijzen zijn ook zeer concurrerend, met inputtokens die 0,5-2 RMB per miljoen kosten en outputtokens 8 RMB per miljoen. Kagi's evaluatie plaatst DeepSeek V3 aan de top van de open-source modellen, dicht achter Sonnet-3.5 en GPT-4o.
Betrokkenheid van de Gemeenschap
Het model is beschikbaar voor testen op het officiële platform, en de code is open-source beschikbaar voor download. AI-enthousiastelingen hebben geëxperimenteerd met DeepSeek V3, waaronder het draaien op gestapelde Mac Minis. Ontwikkelaars zijn verbaasd over het vermogen van het model om complexe instructies te begrijpen zonder expliciete uitleg. Een ontwikkelaar heeft in korte tijd een spel gemaakt met AI-bedrijfslogo's met behulp van DeepSeek V3. De lage kosten voor het draaien van DeepSeek V3 zijn benadrukt, met een gebruiker die opmerkte dat het slechts $2 per dag kost om het te draaien met 60 tokens per seconde.
Training Details
De training van DeepSeek V3 is geoptimaliseerd door middel van algoritmische, framework- en hardwareverbeteringen. Het model is getraind op één biljoen tokens in 180.000 GPU-uren, waarbij de pre-training in minder dan twee maanden is voltooid. De totale trainingskosten bedroegen 2,788 miljoen GPU-uren, of $5,576 miljoen. Belangrijke optimalisaties zijn onder meer:
- Load Balancing: Een nieuwe load balancing strategie met bias termen voor elke expert in de MoE architectuur.
- Multi-Token Prediction (MTP): Een trainingsdoel dat de modelprestaties verbetert en snellere inferentie mogelijk maakt door middel van speculatieve decodering.
- FP8 Training: Het gebruik van FP8 mixed-precision training, wat de haalbaarheid voor grootschalige modellen aantoont.
- DualPipe: Een efficiënt pipeline parallel algoritme dat berekeningen en communicatie overlapt, waardoor de communicatieoverhead wordt verminderd.
De MoE-architectuur bestaat uit 256 routing experts en 1 gedeelde expert, waarbij elk token 8 experts activeert en naar maximaal 4 nodes wordt gestuurd. Redundante experts worden ingezet om de belasting tijdens de inferentie in evenwicht te brengen. De inferentiecapaciteiten van het model zijn verbeterd door kennis te distilleren uit een lange-ketenmodel (DeepSeek R1).
Experimentele Resultaten
DeepSeek V3 behaalt SOTA-prestaties onder open-source modellen in verschillende benchmarks. Het model presteert goed in "needle-in-a-haystack" experimenten, wat zijn vermogen aantoont om specifieke informatie uit lange contexten op te halen.
Bronnen
- Technisch rapport: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3