Mistral CodeStral 登顶排行榜 256k 上下文窗口

Mistral CodeStral 荣登榜首

Mistral，常被称为“欧洲 OpenAI”，发布了其代码模型 CodeStral 的更新版本。这个新版本迅速攀升至 Copilot Arena 的榜首，与 DeepSeek V2.5 和 Claude 3.5 并列第一。值得注意的是，上下文窗口已扩大八倍，达到惊人的 256k。

性能和速度的提升

新的 CodeStral (2501) 拥有更高效的架构和分词器，使其生成速度比其前身提高了一倍。它还在各种基准测试中取得了最先进（SOTA）的结果，并展示了显著的代码完成（FIM）能力。根据 Mistral 的合作伙伴 Continue.dev 的说法，2501 版本标志着 FIM 领域的重大进步。

Copilot Arena 的胜利

在代码模型的竞争平台 Copilot Arena 中，CodeStral 2501 获得了第一名，与 Deepseek V2.5 和 Claude 3.5 Sonnet 并列。这比之前的 CodeStral 版本 (2405) 提高了 12 个点 (1.2%)。虽然 Llama 3.1、Gemini 1.5 Pro 和 GPT-4o 等模型的排名较低，但 o1 的缺失表明，随着它的加入，排名可能会发生变化。

Copilot Arena 详情

Copilot Arena 于去年 11 月由卡内基梅隆大学和加州大学伯克利分校的研究人员以及 LMArena 合作推出。它的功能类似于 LLM Arena，用户提出问题，系统随机选择两个模型提供匿名输出。然后用户选择更好的输出。作为 LLM Arena 的代码特定版本，Copilot Arena 也是一个开源编程工具，使用户能够在 VSCode 中同时比较多个模型。目前，已有 12 个代码模型参加了超过 17,000 场比赛。

多个基准测试中的 SOTA 结果

Mistral 还分享了 CodeStral 2501 在 HumanEval 等传统测试的多个指标中取得了 SOTA 结果。选择用于比较的模型是那些参数少于 100B 的模型，通常被认为在 FIM 任务中很强大。此外，上下文窗口已从 2405 版本（22B 参数）的 32k 增加到新版本的 256k。在涉及 Python 和 SQL 数据库的测试中，CodeStral 2501 在多个指标中始终排名第一或第二。

语言性能

据报道，CodeStral 支持 80 多种语言，平均 HumanEval 得分为 71.4%，比排名第二的模型高出近 6 个百分点。它还在 Python、C+ 和 JS 等常用语言中获得了 SOTA 状态，并在 C# 语言分数中超过了 50%。有趣的是，与之前的版本相比，CodeStral 2501 在 Java 中的性能有所下降。

FIM 性能

Mistral 团队还发布了 CodeStral 2501 的 FIM 性能数据，以单行精确匹配来衡量。平均分数以及 Python、Java 和 JS 的个人分数均比之前的版本有所提高，并超过了 OpenAI FIM API (3.5 Turbo) 等其他模型。DeepSeek 是一个强劲的竞争对手。FIM pass@1 结果显示出类似的趋势。

可用性

CodeStral 2501 可通过 Mistral 的合作伙伴 Continue 在 VSCode 或 Jetbrains IDE 中使用。用户还可以通过 API 自行部署，定价为每百万输入/输出令牌 0.3/0.9 美元或欧元。