Mistral CodeStral 榮登榜首 256K 上下文窗口

Mistral CodeStral 榮登榜首

被譽為「歐洲 OpenAI」的 Mistral 發布了其程式碼模型 CodeStral 的更新版本。這個新版本迅速在 Copilot Arena 登上榜首，與 DeepSeek V2.5 和 Claude 3.5 並列第一。值得注意的是，上下文窗口擴大了八倍，達到驚人的 256k。

效能與速度提升

新的 CodeStral (2501) 具有更高效的架構和 tokenizer，使其生成速度比前代產品快一倍。它還在各種基準測試中取得了最先進 (SOTA) 的結果，並展示了顯著的程式碼完成 (FIM) 能力。根據 Mistral 的合作夥伴 Continue.dev 的說法，2501 版本標誌著 FIM 領域的重大進展。

Copilot Arena 的勝利

在程式碼模型的競爭平台 Copilot Arena 中，CodeStral 2501 榮獲榜首，與 Deepseek V2.5 和 Claude 3.5 Sonnet 並列。這比之前的 CodeStral 版本 (2405) 提高了 12 點 (1.2%)。雖然 Llama 3.1、Gemini 1.5 Pro 和 GPT-4o 等模型的排名較低，但 o1 的缺席表示隨著其加入，排名可能會發生變化。

Copilot Arena 詳細資訊

Copilot Arena 於去年 11 月由卡內基梅隆大學和加州大學柏克萊分校的研究人員與 LMArena 合作推出。它的運作方式與 LLM Arena 類似，使用者提出問題，系統隨機選擇兩個模型提供匿名輸出。然後，使用者選擇較好的輸出。作為 LLM Arena 的程式碼特定版本，Copilot Arena 也作為一個開源程式設計工具，讓使用者可以在 VSCode 中同時比較多個模型。目前，已有 12 個程式碼模型參與了超過 17,000 場對戰。

多項基準測試的 SOTA 結果

Mistral 還分享說，CodeStral 2501 在 HumanEval 等傳統測試的多項指標中取得了 SOTA 結果。選擇比較的模型是那些參數少於 100B 的模型，通常被認為在 FIM 任務中表現出色。此外，上下文窗口從 2405 版本（22B 參數）的 32k 增加到新版本的 256k。在涉及 Python 和 SQL 資料庫的測試中，CodeStral 2501 在多項指標中始終名列第一或第二。

語言效能

據報導，CodeStral 支援 80 多種語言，平均 HumanEval 得分為 71.4%，比第二名模型高出近 6 個百分點。它還在 Python、C+ 和 JS 等常見語言中獲得了 SOTA 地位，並且在 C# 語言分數中超過了 50%。有趣的是，與其前代產品相比，CodeStral 2501 在 Java 中的效能有所下降。

FIM 效能

Mistral 團隊還發布了 CodeStral 2501 的 FIM 效能數據，以單行精確匹配來衡量。與之前的版本相比，平均分數以及 Python、Java 和 JS 的個人分數均有所提高，並超越了 OpenAI FIM API (3.5 Turbo) 等其他模型。DeepSeek 是一個強勁的競爭對手。FIM pass@1 的結果顯示出類似的趨勢。

可用性

CodeStral 2501 可透過 Mistral 的合作夥伴 Continue 在 VSCode 或 Jetbrains IDE 中使用。使用者也可以透過 API 自行部署，價格為每百萬輸入/輸出 tokens 0.3/0.9 美元或歐元。