Published on

MistralのCodeStralが256kコンテキストウィンドウでリーダーボード首位に

著者
  • avatar
    名前
    Ajax
    Twitter

MistralのCodeStralが首位を獲得

「ヨーロッパのOpenAI」とも称されるMistralが、コードモデルの最新版であるCodeStralをリリースしました。この新しいバージョンは、Copilot ArenaでDeepSeek V2.5やClaude 3.5と並んで首位を獲得し、特にコンテキストウィンドウが8倍の256kに拡大された点が注目されています。

パフォーマンスと速度の向上

新しいCodeStral (2501) は、より効率的なアーキテクチャとトークナイザーを採用しており、前バージョンと比較して生成速度が2倍になっています。また、様々なベンチマークで最先端 (SOTA) の結果を達成し、コード補完 (FIM) 能力も大幅に向上しています。MistralのパートナーであるContinue.devによると、2501バージョンはFIMの分野において大きな進歩を示しています。

Copilot Arenaでの勝利

コードモデルの競技プラットフォームであるCopilot Arenaにおいて、CodeStral 2501はDeepseek V2.5およびClaude 3.5 Sonnetと同率で首位を獲得しました。これは、前バージョンのCodeStral (2405) から12ポイント (1.2%) の向上を示しています。Llama 3.1、Gemini 1.5 Pro、GPT-4oなどのモデルが下位にランクインしている一方で、o1の不在は、それが含まれることでランキングが変動する可能性を示唆しています。

Copilot Arenaの詳細

Copilot Arenaは、カーネギーメロン大学とUCバークレーの研究者、およびLMArenaとの共同で昨年11月に開始されました。LLM Arenaと同様に、ユーザーが問題を提起し、システムが2つのモデルをランダムに選択して匿名で出力を提供します。その後、ユーザーが優れた出力を選択します。LLM Arenaのコード特化バージョンであるCopilot Arenaは、VSCodeで複数のモデルを同時に比較できるオープンソースのプログラミングツールとしても機能しています。現在、12のコードモデルが17,000以上のバトルで競い合っています。

複数のベンチマークでSOTA結果を達成

Mistralはまた、CodeStral 2501がHumanEvalなどの従来のテストで複数の指標においてSOTA結果を達成したと発表しました。比較対象として選択されたモデルは、100B未満のパラメータを持ち、一般的にFIMタスクに強いと考えられているモデルでした。さらに、コンテキストウィンドウは2405バージョン (22Bパラメータ) の32kから、新しいバージョンでは256kに増加しました。PythonとSQLデータベースを含むテストでは、CodeStral 2501は複数の指標で一貫して1位または2位にランクインしました。

言語パフォーマンス

CodeStralは、80以上の言語をサポートすると報告されており、平均HumanEvalスコアで71.4%を達成し、2位のモデルよりも6パーセントポイント近く高いスコアを記録しました。また、Python、C+、JSなどの一般的な言語でSOTAステータスを獲得し、C#言語のスコアでは50%を超えました。興味深いことに、CodeStral 2501のJavaにおけるパフォーマンスは、前バージョンと比較して低下しています。

FIMパフォーマンス

Mistralチームは、単一行完全一致で測定されたCodeStral 2501のFIMパフォーマンスデータも公開しました。平均スコアと、Python、Java、JSの個々のスコアはすべて前バージョンよりも向上しており、OpenAI FIM API (3.5 Turbo) などの他のモデルを上回っています。DeepSeekは強力な競合相手です。FIM pass@1の結果も同様の傾向を示しています。

利用可能性

CodeStral 2501は、MistralのパートナーであるContinueを通じて、VSCodeまたはJetbrains IDEで使用できます。ユーザーはAPI経由で自身でデプロイすることも可能で、価格は100万入力/出力トークンあたり0.3/0.9 USDまたはEURです。