- Published on
DeepSeek V3: Ein bahnbrechendes Open-Source-Modell
DeepSeek V3: Eine Revolution in der Open-Source-KI
Die Veröffentlichung von DeepSeek V3, einem 671 Milliarden Parameter Mixture-of-Experts (MoE) Modell, hat in der KI-Gemeinschaft für großes Aufsehen gesorgt. Dieses Modell, das als Open-Source verfügbar ist, wurde mit 14,8 Billionen hochwertigen Token trainiert. Bemerkenswert ist, dass während der Inferenz nur 37 Milliarden Parameter aktiviert werden.
Überragende Leistung und Kosteneffizienz
DeepSeek V3 erreicht eine herausragende Leistung (State-of-the-Art, SOTA) unter den Open-Source-Modellen. Es übertrifft Llama 3.1 mit 405 Milliarden Parametern und konkurriert sogar mit führenden Modellen wie GPT-4o und Claude 3.5 Sonnet. Ein entscheidender Vorteil von DeepSeek V3 ist seine Kosteneffizienz. Es ist erheblich günstiger als die Modelle von Claude 3.5 und kostet nur etwa 9% von Claude 3.5 Sonnet.
Kostengünstiges Training
Der Trainingsaufwand für DeepSeek V3 belief sich auf weniger als 2,8 Millionen GPU-Stunden. Dies steht in deutlichem Kontrast zu Llama 3 mit 405 Milliarden Parametern, dessen Training 30,8 Millionen GPU-Stunden benötigte. Die Gesamtkosten für das Training von DeepSeek V3 betrugen etwa 5,576 Millionen US-Dollar, während das Training eines 7B Llama 2 Modells etwa 760.000 US-Dollar kostete. Diese Kosteneffizienz ist auf optimierte Algorithmen, Frameworks und Hardware zurückzuführen. Andrej Karpathy, ein Gründungsmitglied von OpenAI, betonte, dass DeepSeek V3 vergleichbare Leistungen mit deutlich weniger Ressourcen erzielt, was das Potenzial für Optimierungen in Daten und Algorithmen verdeutlicht.
Leistung und Bewertung
DeepSeek V3 hat von KI-Experten wie Jia Yangqing und Tian Yundong von Meta viel Lob erhalten. In verschiedenen Benchmarks übertrifft es andere Open-Source-Modelle wie Qwen2.5-72B und Llama-3.1-405B. Die Leistung des Modells ist vergleichbar mit Top-Modellen, die nicht Open-Source sind, wie GPT-4o und Claude-3.5-Sonnet. DeepSeek V3 generiert Token mit einer Geschwindigkeit von 60 pro Sekunde, was einer dreifachen Geschwindigkeitssteigerung entspricht.
Die API-Preise sind ebenfalls sehr wettbewerbsfähig. Input-Token kosten zwischen 0,5 und 2 RMB pro Million, während Output-Token 8 RMB pro Million kosten. Die Bewertung von Kagi platziert DeepSeek V3 an der Spitze der Open-Source-Modelle, dicht gefolgt von Sonnet-3.5 und GPT-4o.
Community-Beteiligung
Das Modell steht auf der offiziellen Plattform zum Testen bereit, und der Code ist als Open-Source zum Download verfügbar. KI-Enthusiasten experimentieren bereits mit DeepSeek V3, unter anderem durch den Einsatz auf gestapelten Mac Minis. Entwickler zeigen sich erstaunt über die Fähigkeit des Modells, komplexe Anweisungen ohne explizite Erklärungen zu verstehen. Ein Entwickler erstellte in kurzer Zeit ein Spiel mit KI-Firmenlogos unter Verwendung von DeepSeek V3. Die geringen Betriebskosten von DeepSeek V3 wurden ebenfalls hervorgehoben, wobei ein Benutzer feststellte, dass der Betrieb mit 60 Token pro Sekunde nur etwa 2 US-Dollar pro Tag kostet.
Details zum Training
Das Training von DeepSeek V3 wurde durch Algorithmus-, Framework- und Hardwareverbesserungen optimiert. Das Modell wurde mit einer Billion Token in 180.000 GPU-Stunden trainiert, wobei das Pre-Training in weniger als zwei Monaten abgeschlossen wurde. Die Gesamtkosten für das Training beliefen sich auf 2,788 Millionen GPU-Stunden oder 5,576 Millionen US-Dollar.
Zu den wichtigsten Optimierungen gehören:
- Load Balancing: Eine neuartige Load-Balancing-Strategie mit Bias-Begriffen für jeden Experten in der MoE-Architektur.
- Multi-Token Prediction (MTP): Ein Trainingsziel, das die Modellleistung verbessert und schnellere Inferenz durch spekulative Dekodierung ermöglicht.
- FP8 Training: Die Verwendung von FP8 Mixed-Precision-Training, das die Machbarkeit für groß angelegte Modelle demonstriert.
- DualPipe: Ein effizienter Pipeline-Parallelalgorithmus, der Berechnung und Kommunikation überlappt und so den Kommunikationsaufwand reduziert.
Die MoE-Architektur besteht aus 256 Routing-Experten und einem gemeinsamen Experten, wobei jeder Token 8 Experten aktiviert und maximal an 4 Knoten gesendet wird. Redundante Experten werden eingesetzt, um die Last während der Inferenz auszugleichen. Die Inferenzfähigkeiten des Modells wurden durch das Extrahieren von Wissen aus einem Long-Chain-Modell (DeepSeek R1) verbessert.
Experimentelle Ergebnisse
DeepSeek V3 erzielt SOTA-Leistung unter den Open-Source-Modellen in verschiedenen Benchmarks. Das Modell schneidet auch in "Nadel-im-Heuhaufen"-Experimenten gut ab und demonstriert seine Fähigkeit, spezifische Informationen aus langen Kontexten abzurufen.
Ressourcen
- Technischer Bericht: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3