- Published on
Mistrals CodeStral Bereikt Top Positie Met 256k Context Window
Mistral's CodeStral Bereikt Top Ranking
Mistral, vaak de 'Europese OpenAI' genoemd, heeft een bijgewerkte versie van zijn codemodel, CodeStral, uitgebracht. Deze nieuwe iteratie is snel naar de top van de Copilot Arena gestegen, waar het de eerste plaats deelt met DeepSeek V2.5 en Claude 3.5. Opvallend is dat het contextvenster acht keer is uitgebreid tot een indrukwekkende 256k.
Verbeterde Prestaties en Snelheid
De nieuwe CodeStral (2501) beschikt over een efficiëntere architectuur en tokenizer, wat leidt tot een verdubbeling van de generatiesnelheid in vergelijking met zijn voorganger. Het heeft ook state-of-the-art (SOTA) resultaten behaald in verschillende benchmarks en toont aanzienlijke mogelijkheden voor codevoltooiing (FIM). Volgens Mistrals partner Continue.dev markeert de 2501-versie een belangrijke stap voorwaarts in het FIM-veld.
Copilot Arena Overwinning
In de Copilot Arena, een competitief platform voor codemodellen, heeft CodeStral 2501 de toppositie veiliggesteld en gelijkgespeeld met Deepseek V2.5 en Claude 3.5 Sonnet. Dit is een verbetering van 12 punten (1,2%) ten opzichte van de vorige CodeStral-versie (2405). Hoewel modellen als Llama 3.1, Gemini 1.5 Pro en GPT-4o lager scoren, suggereert de afwezigheid van o1 dat de ranglijsten kunnen verschuiven met de opname ervan.
Copilot Arena Details
De Copilot Arena werd afgelopen november gelanceerd door een samenwerking tussen onderzoekers van Carnegie Mellon University en UC Berkeley, samen met LMArena. Het werkt op dezelfde manier als de LLM Arena, waar gebruikers problemen stellen en het systeem willekeurig twee modellen selecteert om anonieme outputs te geven. Gebruikers kiezen dan de superieure output. Als een codespecifieke versie van de LLM Arena dient Copilot Arena ook als een open-source programmeertool waarmee gebruikers meerdere modellen tegelijkertijd in VSCode kunnen vergelijken. Momenteel hebben 12 codemodellen deelgenomen aan meer dan 17.000 gevechten.
SOTA Resultaten in Meerdere Benchmarks
Mistral deelde ook mee dat CodeStral 2501 SOTA-resultaten heeft behaald in verschillende statistieken op traditionele tests zoals HumanEval. De geselecteerde modellen voor vergelijking waren die met minder dan 100B parameters, die over het algemeen als sterk worden beschouwd in FIM-taken. Bovendien is het contextvenster verhoogd van 32k in de 2405-versie (22B parameters) naar 256k in de nieuwe versie. In tests met Python en SQL-databases scoorde CodeStral 2501 consequent als eerste of tweede in meerdere statistieken.
Taalprestaties
CodeStral, dat naar verluidt meer dan 80 talen ondersteunt, behaalde een gemiddelde HumanEval-score van 71,4%, bijna 6 procentpunten hoger dan het model op de tweede plaats. Het heeft ook de SOTA-status bereikt in gangbare talen zoals Python, C+ en JS, en heeft meer dan 50% behaald in C# taalscores. Interessant is dat de prestaties van CodeStral 2501 in Java zijn afgenomen in vergelijking met zijn voorganger.
FIM Prestaties
Het Mistral-team heeft ook de FIM-prestatiegegevens voor CodeStral 2501 vrijgegeven, gemeten aan de hand van een exacte match van één regel. De gemiddelde score en de individuele Python-, Java- en JS-scores zijn allemaal verbeterd ten opzichte van de vorige versie en overtreffen andere modellen zoals de OpenAI FIM API (3.5 Turbo). DeepSeek is een directe concurrent. De FIM pass@1 resultaten vertonen vergelijkbare trends.
Beschikbaarheid
CodeStral 2501 is toegankelijk via Mistrals partner, Continue, voor gebruik in VSCode of Jetbrains IDEs. Gebruikers kunnen het ook zelf via API implementeren, met een prijs van 0,3/0,9 USD of EUR per miljoen input/output tokens.