Published on

DeepSeek V3:画期的なオープンソースモデル、性能、コスト効率、そしてコミュニティの熱狂

著者
  • avatar
    名前
    Ajax
    Twitter

DeepSeek V3:画期的なオープンソースモデル

DeepSeek V3は、AIコミュニティに大きな波紋を呼んでいる、6710億パラメータのMixture-of-Experts(MoE)モデルです。このモデルはオープンソースとして公開され、多くの関心を集めています。14.8兆の高品質トークンでトレーニングされており、推論時にはわずか370億のパラメータしかアクティブになりません。

驚異的な性能とコスト効率

DeepSeek V3は、オープンソースモデルの中で最先端(SOTA)の性能を達成し、Llama 3.1 405Bを凌駕し、GPT-4oやClaude 3.5 Sonnetといったトップモデルに匹敵する性能を示しています。特筆すべきは、Claude 3.5モデルと比較して大幅に安価であり、Claude 3.5 Sonnetのわずか9%のコストで利用できる点です。

費用対効果の高いトレーニング

DeepSeek V3のトレーニングには、280万GPU時間未満しか必要としませんでした。これは、Llama 3 405Bの3080万GPU時間と比較して大幅に少ない数値です。DeepSeek V3の総トレーニングコストは約557万6000ドルであるのに対し、7B Llama 2モデルのトレーニングには76万ドルかかります。このコスト効率は、最適化されたアルゴリズム、フレームワーク、およびハードウェアによるものです。

OpenAIの創設メンバーであるKarpathy氏は、DeepSeek V3が大幅に少ないリソースで同等の性能を達成していることを指摘し、データとアルゴリズムの最適化の可能性を強調しました。

性能と評価

DeepSeek V3は、Jia Yangqing氏やMetaのTian Yundong氏など、AI専門家から高い評価を受けています。さまざまなベンチマークで、Qwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルよりも優れた性能を発揮しています。

このモデルの性能は、GPT-4oやClaude-3.5-Sonnetなどのトップレベルのクローズドソースモデルに匹敵します。DeepSeek V3は、1秒あたり60トークンを生成し、これは3倍の速度向上に相当します。APIの価格も非常に競争力があり、入力トークンは100万あたり0.5〜2人民元、出力トークンは100万あたり8人民元です。

Kagiの評価では、DeepSeek V3はオープンソースモデルの中でトップに位置付けられ、Sonnet-3.5とGPT-4oに次ぐ存在となっています。

コミュニティの関与

モデルは公式プラットフォームでテスト可能であり、コードはダウンロード用にオープンソース化されています。AI愛好家たちは、DeepSeek V3をさまざまな方法で試しており、Mac Miniを積み重ねて実行する実験も行われています。

開発者たちは、このモデルが複雑な指示を明示的な説明なしに理解できる能力に驚きを表明しています。ある開発者は、DeepSeek V3を使ってAI企業のロゴを使ったゲームを短時間で作成しました。

DeepSeek V3の実行コストの低さも強調されており、あるユーザーは、1秒あたり60トークンで実行するのに1日あたりわずか2ドルしかかからないと述べています。

トレーニングの詳細

DeepSeek V3のトレーニングは、アルゴリズム、フレームワーク、およびハードウェアの改善を通じて最適化されました。モデルは、18万GPU時間で1兆トークンでトレーニングされ、2か月未満で事前トレーニングを完了しました。総トレーニングコストは278万8000GPU時間、つまり557万6000ドルでした。

主な最適化には以下が含まれます。

  • 負荷分散: MoEアーキテクチャの各エキスパートにバイアス項を設定した新しい負荷分散戦略。
  • マルチトークン予測(MTP): モデルのパフォーマンスを向上させ、推測デコーディングを通じて推論を高速化するトレーニング目標。
  • FP8トレーニング: 大規模モデルでの実現可能性を示す、FP8混合精度トレーニングの使用。
  • DualPipe: 計算と通信をオーバーラップさせ、通信オーバーヘッドを削減する効率的なパイプライン並列アルゴリズム。

MoEアーキテクチャは、256のルーティングエキスパートと1つの共有エキスパートで構成されており、各トークンは8つのエキスパートをアクティブにし、最大4つのノードに送信されます。冗長なエキスパートは、推論中の負荷を分散するために展開されます。

モデルの推論能力は、長鎖モデル(DeepSeek R1)から知識を蒸留することによって強化されました。

実験結果

DeepSeek V3は、さまざまなベンチマークでオープンソースモデルの中でSOTAパフォーマンスを達成しています。このモデルは、「干し草の中の針」実験で優れた性能を発揮し、長い文脈から特定の情報を検索する能力を示しています。

リソース