- Published on
Deepseek-v3がリーク!Claude 3.5 Sonnetを凌駕するプログラミング性能
Deepseek-v3:予期せぬ発表と驚異的な性能
Deepseek-v3、これはまだ発表されていないモデルですが、すでにその素晴らしい性能が明らかになっています。Redditユーザーによってリークされたこのモデルは、APIやウェブページで利用可能になっていることが判明しました。特に、Aider多言語プログラミングベンチマークにおいて、Claude 3.5 Sonnetを凌駕する結果を出しており、その実力は疑う余地がありません。現在、Deepseek-v3はLiveBench評価プラットフォームで最強のオープンソースLLMとして認められています。
モデルアーキテクチャの詳細
Deepseek-v3のアーキテクチャは、6850億パラメータのMoE(Mixture of Experts)構造を採用しており、以前のバージョンと比較して大幅な改善が見られます。このモデルは256の専門家(エキスパート)を持ち、シグモイド関数を用いて上位8つのエキスパートを選択するルーティングシステムを採用しています。コンテキストウィンドウは64Kをサポートし、デフォルトは4K、最大は8Kとなっています。トークン生成速度は約60トークン/秒です。
v2からの主要なアーキテクチャ変更点
v3では、エキスパート選択のためのゲート関数がソフトマックスからシグモイドに変更されました。これにより、モデルはより多くのエキスパートから選択できるようになり、ソフトマックスのように特定のエキスパートに偏る傾向がなくなりました。さらに、Top-k選択には補助損失を必要としない新しいnoaux_tcメソッドが導入され、トレーニングが簡素化され、メインタスクの損失関数を直接使用することで効率が向上しています。また、エキスパートスコアを調整するための新しいパラメータ、e_score_correction_biasが追加され、エキスパート選択とモデルトレーニング中のパフォーマンスが向上しています。
v2およびv2.5との比較
v3は、v2の強化版であり、すべてのパラメータにおいて大幅な改善が見られます。v2.5と比較すると、エキスパートの数、中間レイヤーのサイズ、およびトークンあたりのエキスパート数など、構成においてv3が優れています。
ユーザーテストと観察
開発者のサイモン・ウィリソン氏がDeepseek-v3をテストしたところ、このモデルは自身をOpenAIのGPT-4アーキテクチャに基づいていると認識しました。また、画像生成テストでは、自転車に乗るペリカンのSVG画像を生成することにも成功しています。複数のユーザーが、Deepseek-v3がOpenAIモデルに基づいていると自己認識していると報告しており、これはトレーニング中にOpenAIモデルの応答を使用している可能性があると考えられています。
コミュニティの反応
Deepseek-v3の予期せぬリリースと高いパフォーマンスは、コミュニティで大きな話題となっています。特にオープンソース領域では、Deepseek-v3の性能がOpenAIのモデルを凌駕していると考えるユーザーもいます。このモデルの登場は、AI技術の進歩を加速させる可能性を秘めており、今後の展開が非常に楽しみです。
その他のリソース
Deepseek-v3の登場は、AIモデルの進化における重要な一歩であり、今後のさらなる発展に期待が高まります。このモデルがもたらすであろうイノベーションは、私たちの生活やビジネスに大きな変革をもたらす可能性があります。