Published on

Mistral CodeStral возглавляет рейтинги с контекстным окном 256k

Авторы
  • avatar
    Имя
    Ajax
    Twitter

Mistral CodeStral достигает вершины рейтингов

Mistral, часто называемая 'европейской OpenAI', выпустила обновленную версию своей модели кода, CodeStral. Эта новая итерация быстро поднялась на вершину Copilot Arena, разделив первое место с DeepSeek V2.5 и Claude 3.5. Примечательно, что контекстное окно было увеличено в восемь раз до впечатляющих 256k.

Улучшенная производительность и скорость

Новый CodeStral (2501) может похвастаться более эффективной архитектурой и токенизатором, что привело к удвоению скорости генерации по сравнению с его предшественником. Он также достиг передовых (SOTA) результатов по различным бенчмаркам и демонстрирует значительные возможности завершения кода (FIM). По словам партнера Mistral Continue.dev, версия 2501 знаменует собой значительный шаг вперед в области FIM.

Победа в Copilot Arena

В Copilot Arena, конкурентной платформе для моделей кода, CodeStral 2501 занял первое место, сравнявшись с Deepseek V2.5 и Claude 3.5 Sonnet. Это знаменует собой улучшение на 12 пунктов (1,2%) по сравнению с предыдущей версией CodeStral (2405). В то время как такие модели, как Llama 3.1, Gemini 1.5 Pro и GPT-4o, занимают более низкие места, отсутствие o1 предполагает, что рейтинги могут измениться с его включением.

Подробности Copilot Arena

Copilot Arena была запущена в ноябре прошлого года в результате сотрудничества исследователей из Университета Карнеги-Меллона и Калифорнийского университета в Беркли, а также LMArena. Она функционирует аналогично LLM Arena, где пользователи ставят задачи, и система случайным образом выбирает две модели для предоставления анонимных результатов. Затем пользователи выбирают лучший результат. Будучи версией LLM Arena для конкретного кода, Copilot Arena также служит инструментом программирования с открытым исходным кодом, который позволяет пользователям сравнивать несколько моделей одновременно в VSCode. В настоящее время 12 моделей кода соревновались в более чем 17 000 битвах.

SOTA результаты по нескольким бенчмаркам

Mistral также сообщила, что CodeStral 2501 достиг результатов SOTA по нескольким показателям в традиционных тестах, таких как HumanEval. Моделями, выбранными для сравнения, были модели с менее чем 100 миллиардами параметров, которые обычно считаются сильными в задачах FIM. Кроме того, контекстное окно увеличилось с 32k в версии 2405 (22 миллиарда параметров) до 256k в новой версии. В тестах с использованием баз данных Python и SQL CodeStral 2501 постоянно занимал первое или второе место по нескольким показателям.

Языковая производительность

CodeStral, который, как сообщается, поддерживает более 80 языков, достиг среднего балла HumanEval 71,4%, что почти на 6 процентных пунктов выше, чем у модели, занявшей второе место. Он также достиг статуса SOTA на распространенных языках, таких как Python, C+ и JS, и превысил 50% по баллам на языке C#. Интересно, что производительность CodeStral 2501 на Java снизилась по сравнению с его предшественником.

Производительность FIM

Команда Mistral также опубликовала данные о производительности FIM для CodeStral 2501, измеренные по точному совпадению одной строки. Средний балл и индивидуальные баллы Python, Java и JS улучшились по сравнению с предыдущей версией и превосходят другие модели, такие как OpenAI FIM API (3.5 Turbo). DeepSeek является близким конкурентом. Результаты FIM pass@1 показывают аналогичные тенденции.

Доступность

CodeStral 2501 доступен через партнера Mistral, Continue, для использования в VSCode или Jetbrains IDE. Пользователи также могут развернуть его самостоятельно через API, при этом цена составляет 0,3/0,9 доллара США или евро за миллион входных/выходных токенов.