Published on

Deepseek-v3: Unerwartete Enthüllung übertrifft Claude 3.5 Sonnet in Programmier-Benchmarks

Autoren
  • avatar
    Name
    Ajax
    Twitter

Deepseek-v3: Unerwartete Enthüllung übertrifft Claude 3.5 Sonnet in Programmier-Benchmarks

Die Welt der künstlichen Intelligenz erlebt einen überraschenden Durchbruch mit der unerwarteten Veröffentlichung von Deepseek-v3, einem hochmodernen Sprachmodell. Dieses Modell, das noch nicht angekündigt war, hat bereits beeindruckende Leistungen gezeigt, insbesondere im Bereich des Programmierens, wo es sogar Claude 3.5 Sonnet in den Aider-Benchmarks übertrifft. Die Leistung von Deepseek-v3 hat nicht nur die KI-Gemeinschaft in Aufruhr versetzt, sondern auch das Potenzial von Open-Source-Modellen neu definiert.

Kernpunkte der Enthüllung

  • Unerwartete Leistung: Deepseek-v3 wurde überraschend enthüllt und zeigt bereits herausragende Leistungen.
  • Übertrifft Claude 3.5 Sonnet: In den Aider multilingualen Programmier-Benchmarks übertrifft Deepseek-v3 das Modell Claude 3.5 Sonnet.
  • Stärkstes Open-Source-LLM: Deepseek-v3 ist derzeit das stärkste Open-Source-LLM auf der LiveBench-Evaluierungsplattform.
  • Fortschrittliche Architektur: Das Modell verwendet eine 685B-Parameter-MoE-Struktur mit signifikanten Verbesserungen gegenüber früheren Versionen.

Hintergrundinformationen zum Leak

Die Enthüllung von Deepseek-v3 kam unerwartet und wurde durch Reddit-Nutzer aufgedeckt, die das Modell auf APIs und Webseiten entdeckten. Die Leistung des Modells wurde anhand verschiedener Benchmarks wie Aider und LiveBench evaluiert. Obwohl die Open-Source-Gewichte des Modells bereits auf Hugging Face verfügbar sind, fehlt bisher eine Modellkarte.

Technische Details von Deepseek-v3

Die Architektur von Deepseek-v3 ist bemerkenswert und zeichnet sich durch mehrere Schlüsselmerkmale aus:

  • Parametergröße: 685 Milliarden Parameter
  • MoE-Struktur: Mixture of Experts-Architektur mit 256 Experten
  • Routing: Verwendet eine Sigmoid-Funktion für das Routing, wobei die Top 8 Experten ausgewählt werden (Top-k=8).
  • Kontextfenster: Unterstützt 64K Kontext, mit einem Standard von 4K und einem Maximum von 8K.
  • Token-Generierungsgeschwindigkeit: Ungefähr 60 Token pro Sekunde.

Wichtige architektonische Änderungen im Vergleich zu v2

Die Verbesserungen von Deepseek-v3 gegenüber der vorherigen Version v2 sind erheblich und umfassen mehrere Schlüsselbereiche:

  • Gate-Funktion: v3 verwendet eine Sigmoid-Funktion anstelle von Softmax für die Expertauswahl. Dies ermöglicht dem Modell, aus einer größeren Anzahl von Experten auszuwählen, im Gegensatz zu Softmax, das dazu neigt, einige wenige zu bevorzugen.
  • Top-k-Auswahl: v3 führt eine neue noaux_tc-Methode für die Top-k-Auswahl ein, die keinen zusätzlichen Verlust erfordert. Dies vereinfacht das Training und verbessert die Effizienz, indem direkt die Verlustfunktion der Hauptaufgabe verwendet wird.
  • Experten-Score-Anpassung: Ein neuer Parameter, e_score_correction_bias, wurde hinzugefügt, um die Experten-Scores anzupassen, was zu einer besseren Leistung bei der Expertauswahl und dem Modelltraining führt.

Vergleich mit v2 und v2.5

  • v3 vs. v2: v3 ist im Wesentlichen eine verbesserte Version von v2, mit signifikanten Verbesserungen in allen Parametern.
  • v3 vs. v2.5: v3 übertrifft v2.5 in Bezug auf die Konfiguration, einschließlich mehr Experten, größere Zwischenschichtgrößen und mehr Experten pro Token.

Benutzertests und Beobachtungen

Die ersten Tests von Deepseek-v3 haben einige interessante Erkenntnisse gebracht:

  • Selbstidentifikation: Simon Willison, ein Entwickler, stellte fest, dass sich Deepseek-v3 als auf der GPT-4-Architektur von OpenAI basierend identifizierte.
  • Bildgenerierung: Das Modell wurde auch für die Bildgenerierung getestet und erstellte ein SVG-Bild eines Pelikans, der auf einem Fahrrad fährt.
  • Unerwartete Selbstidentifikation: Mehrere Benutzer berichteten, dass sich Deepseek-v3 als auf OpenAI-Modellen basierend identifizierte, möglicherweise aufgrund der Verwendung von OpenAI-Modellantworten während des Trainings.

Reaktion der Community

Die unerwartete Veröffentlichung und die starke Leistung von Deepseek-v3 haben in der KI-Community große Begeisterung ausgelöst. Einige Benutzer sind der Ansicht, dass die Leistung von Deepseek-v3 die von OpenAI-Modellen übertrifft, insbesondere im Open-Source-Bereich. Die Tatsache, dass ein solch leistungsfähiges Modell nun öffentlich verfügbar ist, eröffnet neue Möglichkeiten für Forschung und Entwicklung im Bereich der künstlichen Intelligenz.

Zusätzliche Ressourcen

Für diejenigen, die sich weiter mit Deepseek-v3 auseinandersetzen möchten, stehen folgende Ressourcen zur Verfügung:

Die Veröffentlichung von Deepseek-v3 markiert einen bedeutenden Fortschritt in der Entwicklung von Open-Source-Sprachmodellen und zeigt, dass diese Modelle in der Lage sind, mit kommerziellen Alternativen zu konkurrieren. Die breite Verfügbarkeit und die beeindruckende Leistung von Deepseek-v3 werden die KI-Forschung und -Anwendungen in den kommenden Jahren sicherlich stark beeinflussen. Die Community beobachtet gespannt, wie sich dieses Modell weiterentwickeln und seinen Platz in der Landschaft der künstlichen Intelligenz festigen wird.