Mistral CodeStral Osiąga Szczyty Rankingów z Kontekstem 256k

Mistral CodeStral na Szczycie Rankingów

Mistral, często określany jako 'Europejski OpenAI', wypuścił zaktualizowaną wersję swojego modelu kodowego, CodeStral. Ta nowa iteracja szybko wspięła się na szczyt Copilot Arena, dzieląc pierwsze miejsce z DeepSeek V2.5 i Claude 3.5. Warto zauważyć, że okno kontekstowe zostało rozszerzone ośmiokrotnie do imponujących 256 tysięcy.

Ulepszona Wydajność i Szybkość

Nowy CodeStral (2501) szczyci się bardziej wydajną architekturą i tokenizatorem, co prowadzi do podwojenia szybkości generowania w porównaniu do poprzednika. Osiągnął również najnowocześniejsze (SOTA) wyniki w różnych testach i wykazuje znaczące możliwości uzupełniania kodu (FIM). Według partnera Mistral, Continue.dev, wersja 2501 stanowi znaczący krok naprzód w dziedzinie FIM.

Zwycięstwo w Copilot Arena

W Copilot Arena, platformie rywalizacyjnej dla modeli kodowych, CodeStral 2501 zapewnił sobie czołowe miejsce, remisując z Deepseek V2.5 i Claude 3.5 Sonnet. To oznacza poprawę o 12 punktów (1,2%) w stosunku do poprzedniej wersji CodeStral (2405). Chociaż modele takie jak Llama 3.1, Gemini 1.5 Pro i GPT-4o zajmują niższe miejsca, brak o1 sugeruje, że rankingi mogą się zmienić po jego włączeniu.

Szczegóły Copilot Arena

Copilot Arena została uruchomiona w listopadzie ubiegłego roku we współpracy z naukowcami z Carnegie Mellon University i UC Berkeley, wraz z LMArena. Działa podobnie jak LLM Arena, gdzie użytkownicy zadają problemy, a system losowo wybiera dwa modele do dostarczenia anonimowych wyników. Użytkownicy następnie wybierają lepszy wynik. Jako wersja LLM Arena specyficzna dla kodu, Copilot Arena służy również jako narzędzie programistyczne open-source, które umożliwia użytkownikom jednoczesne porównywanie wielu modeli w VSCode. Obecnie 12 modeli kodowych wzięło udział w ponad 17 000 bitew.

Wyniki SOTA w Wielu Testach

Mistral udostępnił również informacje, że CodeStral 2501 osiągnął wyniki SOTA w kilku metrykach w tradycyjnych testach, takich jak HumanEval. Modele wybrane do porównania to te z mniej niż 100 miliardami parametrów, ogólnie uważane za silne w zadaniach FIM. Ponadto okno kontekstowe wzrosło z 32 tysięcy w wersji 2405 (22 miliardy parametrów) do 256 tysięcy w nowej wersji. W testach obejmujących bazy danych Python i SQL, CodeStral 2501 konsekwentnie zajmował pierwsze lub drugie miejsce w wielu metrykach.

Wydajność Językowa

CodeStral, który podobno obsługuje ponad 80 języków, osiągnął średni wynik HumanEval 71,4%, prawie o 6 punktów procentowych wyższy niż model z drugiego miejsca. Osiągnął również status SOTA w popularnych językach, takich jak Python, C++ i JS, a także przekroczył 50% w wynikach języka C#. Co ciekawe, wydajność CodeStral 2501 w Javie spadła w porównaniu do poprzednika.

Wydajność FIM

Zespół Mistral udostępnił również dane dotyczące wydajności FIM dla CodeStral 2501, mierzone na podstawie dokładnego dopasowania pojedynczej linii. Średni wynik oraz indywidualne wyniki dla Pythona, Javy i JS są ulepszone w porównaniu do poprzedniej wersji i przewyższają inne modele, takie jak OpenAI FIM API (3.5 Turbo). DeepSeek jest bliskim konkurentem. Wyniki FIM pass@1 wykazują podobne tendencje.

Dostępność

CodeStral 2501 jest dostępny za pośrednictwem partnera Mistral, Continue, do użytku w VSCode lub Jetbrains IDEs. Użytkownicy mogą również wdrożyć go samodzielnie za pośrednictwem API, z cenami na poziomie 0,3/0,9 USD lub EUR za milion tokenów wejściowych/wyjściowych.