- Published on
Mistral CodeStral постига върхови резултати с 256k контекстно прозорец
Mistral's CodeStral Достига Върхови Позиции
Mistral, често наричана 'европейският OpenAI', пусна обновена версия на своя кодов модел, CodeStral. Тази нова итерация бързо се изкачи до върха на Copilot Arena, споделяйки първото място с DeepSeek V2.5 и Claude 3.5. Забележително е, че контекстното прозорец е разширено осемкратно до впечатляващите 256k.
Подобрена Производителност и Скорост
Новият CodeStral (2501) може да се похвали с по-ефективна архитектура и токенизатор, което води до удвояване на скоростта на генериране в сравнение с неговия предшественик. Той също така е постигнал най-добри резултати (SOTA) в различни бенчмаркове и демонстрира значителни възможности за завършване на код (FIM). Според партньора на Mistral Continue.dev, версията 2501 бележи значителна стъпка напред в областта на FIM.
Победа в Copilot Arena
В Copilot Arena, конкурентна платформа за кодови модели, CodeStral 2501 си осигури първото място, изравнявайки се с Deepseek V2.5 и Claude 3.5 Sonnet. Това отбелязва подобрение от 12 точки (1.2%) спрямо предишната версия на CodeStral (2405). Докато модели като Llama 3.1, Gemini 1.5 Pro и GPT-4o се класират по-ниско, липсата на o1 предполага, че класирането може да се промени с включването му.
Детайли за Copilot Arena
Copilot Arena беше стартирана миналия ноември чрез сътрудничество между изследователи от Carnegie Mellon University и UC Berkeley, заедно с LMArena. Тя функционира подобно на LLM Arena, където потребителите поставят проблеми, а системата произволно избира два модела, за да предостави анонимни изходи. След това потребителите избират по-добрия изход. Като специфична за кода версия на LLM Arena, Copilot Arena също служи като инструмент за програмиране с отворен код, който позволява на потребителите да сравняват множество модели едновременно в VSCode. В момента 12 кодови модела са се състезавали в над 17 000 битки.
SOTA Резултати в Множество Бенчмаркове
Mistral също така сподели, че CodeStral 2501 е постигнал SOTA резултати в няколко метрики при традиционни тестове като HumanEval. Моделите, избрани за сравнение, бяха тези с по-малко от 100B параметри, които обикновено се считат за силни в FIM задачи. Освен това, контекстното прозорец се е увеличило от 32k във версията 2405 (22B параметри) до 256k в новата версия. При тестове, включващи Python и SQL бази данни, CodeStral 2501 постоянно се класира на първо или второ място в множество метрики.
Езикова Производителност
CodeStral, който съобщава, че поддържа над 80 езика, постигна среден резултат от 71.4% в HumanEval, почти 6 процентни пункта по-висок от модела на второ място. Той също така е достигнал SOTA статус в често срещани езици като Python, C+ и JS, и е надхвърлил 50% в C# езикови резултати. Интересно е, че производителността на CodeStral 2501 в Java е намаляла в сравнение с неговия предшественик.
FIM Производителност
Екипът на Mistral също така публикува данните за FIM производителността за CodeStral 2501, измерена чрез точно съвпадение на един ред. Средният резултат и индивидуалните резултати за Python, Java и JS са подобрени в сравнение с предишната версия и надминават други модели като OpenAI FIM API (3.5 Turbo). DeepSeek е близък конкурент. Резултатите от FIM pass@1 показват подобни тенденции.
Наличност
CodeStral 2501 е достъпен чрез партньора на Mistral, Continue, за използване в VSCode или Jetbrains IDE. Потребителите могат също така да го разположат сами чрез API, с цени от 0.3/0.9 USD или EUR на милион входни/изходни токени.