Published on

Deepseek-v3 overtreft Claude 3.5 Sonnet in programmeerbenchmarks

Auteurs
  • avatar
    Naam
    Ajax
    Twitter

Deepseek-v3: Een Onverwachte Doorbraak in Programmeerbenchmarks

De onthulling van Deepseek-v3, een model dat niet officieel was aangekondigd, heeft in de techgemeenschap voor opwinding gezorgd. Dit model heeft opmerkelijke prestaties geleverd en overtreft zelfs Claude 3.5 Sonnet in de Aider meertalige programmeerbenchmark. Bovendien is Deepseek-v3 momenteel het sterkste open-source LLM op het LiveBench evaluatieplatform. De architectuur van het model, met een 685 miljard parameter MoE (Mixture of Experts) structuur, vertegenwoordigt een significante verbetering ten opzichte van eerdere versies.

Achtergrond van de Lek

De onthulling van Deepseek-v3 was niet gepland. Reddit-gebruikers ontdekten het model via API's en webpagina's. Deze onverwachte release heeft geleid tot uitgebreide tests en evaluaties op verschillende benchmarks, waaronder Aider en LiveBench. De open-source gewichten van het model zijn nu beschikbaar op Hugging Face, hoewel een modelkaart nog ontbreekt.

Technische Specificaties van Deepseek-v3

Modelarchitectuur

  • Parametergrootte: 685 miljard parameters.
  • MoE Structuur: Een Mixture of Experts architectuur met 256 experts.
  • Routing: Het model gebruikt een sigmoïde functie voor routing, waarbij de top 8 experts (Top-k=8) worden geselecteerd.
  • Contextvenster: Ondersteunt een context van 64K, met een standaard van 4K en een maximum van 8K.
  • Token Generatiesnelheid: Ongeveer 60 tokens per seconde.

Belangrijke Architecturale Veranderingen ten opzichte van V2

  • Gate Functie: In plaats van softmax gebruikt v3 een sigmoïde functie voor expertselectie. Hierdoor kan het model kiezen uit een grotere set experts, in tegenstelling tot softmax die de neiging heeft om een paar experts te bevoordelen.
  • Top-k Selectie: v3 introduceert een nieuwe noaux_tc methode voor Top-k selectie, die geen extra verlies vereist. Dit vereenvoudigt de training en verbetert de efficiëntie door direct het verlies van de hoofdtaak te gebruiken.
  • Expert Score Aanpassing: Een nieuwe parameter, e_score_correction_bias, is toegevoegd om expert scores aan te passen, wat leidt tot betere prestaties tijdens de expertselectie en modeltraining.

Vergelijking met V2 en V2.5

  • v3 vs v2: v3 is in wezen een verbeterde versie van v2, met significante verbeteringen in alle parameters.
  • v3 vs v2.5: v3 overtreft v2.5 in termen van configuratie, met meer experts, grotere tussenliggende laag groottes en meer experts per token.

Gebruikerstests en Observaties

Initiële Tests

Simon Willison, een ontwikkelaar, testte Deepseek-v3 en ontdekte dat het zichzelf identificeerde als gebaseerd op de GPT-4 architectuur van OpenAI. Het model werd ook getest voor beeldgeneratie, waarbij het een SVG-afbeelding creëerde van een pelikaan die op een fiets rijdt.

Onverwachte Zelf-identificatie

Verschillende gebruikers meldden dat Deepseek-v3 zichzelf identificeerde als gebaseerd op OpenAI modellen. Dit kan mogelijk zijn door het gebruik van OpenAI modelantwoorden tijdens de training.

Reactie van de Gemeenschap

De onverwachte release en sterke prestaties van Deepseek-v3 hebben tot enthousiasme geleid in de gemeenschap. Sommige gebruikers geloven dat de prestaties van Deepseek-v3 die van OpenAI's modellen overtreffen, vooral in de open-source domein.

Aanvullende Bronnen