- Published on
Mistrals CodeStral erreicht Spitzenplatzierungen mit 256k Kontextfenster
Mistrals CodeStral erreicht Spitzenplatzierungen
Mistral, oft als das 'europäische OpenAI' bezeichnet, hat eine aktualisierte Version seines Code-Modells, CodeStral, veröffentlicht. Diese neue Iteration hat sich schnell an die Spitze der Copilot Arena katapultiert und teilt sich den ersten Platz mit DeepSeek V2.5 und Claude 3.5. Bemerkenswert ist, dass das Kontextfenster auf beeindruckende 256k erweitert wurde, was einer Verachtfachung entspricht.
Verbesserte Leistung und Geschwindigkeit
Das neue CodeStral (2501) zeichnet sich durch eine effizientere Architektur und einen verbesserten Tokenizer aus, was zu einer Verdopplung der Generierungsgeschwindigkeit im Vergleich zum Vorgänger führt. Es hat auch State-of-the-Art (SOTA)-Ergebnisse in verschiedenen Benchmarks erzielt und demonstriert signifikante Code-Vervollständigungsfähigkeiten (FIM). Laut Mistrals Partner Continue.dev markiert die Version 2501 einen bedeutenden Fortschritt im Bereich FIM.
Sieg in der Copilot Arena
In der Copilot Arena, einer Wettbewerbsplattform für Code-Modelle, hat sich CodeStral 2501 den Spitzenplatz gesichert und liegt gleichauf mit Deepseek V2.5 und Claude 3.5 Sonnet. Dies stellt eine Verbesserung um 12 Punkte (1,2 %) gegenüber der vorherigen CodeStral-Version (2405) dar. Während Modelle wie Llama 3.1, Gemini 1.5 Pro und GPT-4o niedriger rangieren, deutet das Fehlen von o1 darauf hin, dass sich die Rangliste mit dessen Aufnahme verschieben könnte.
Details zur Copilot Arena
Die Copilot Arena wurde im vergangenen November durch eine Zusammenarbeit von Forschern der Carnegie Mellon University und UC Berkeley sowie LMArena ins Leben gerufen. Sie funktioniert ähnlich wie die LLM Arena, bei der Benutzer Probleme stellen und das System zufällig zwei Modelle auswählt, um anonyme Ausgaben bereitzustellen. Die Benutzer wählen dann die überlegene Ausgabe aus. Als code-spezifische Version der LLM Arena dient die Copilot Arena auch als Open-Source-Programmierwerkzeug, das es Benutzern ermöglicht, mehrere Modelle gleichzeitig in VSCode zu vergleichen. Derzeit haben 12 Code-Modelle in über 17.000 Kämpfen teilgenommen.
SOTA-Ergebnisse in mehreren Benchmarks
Mistral teilte auch mit, dass CodeStral 2501 in mehreren Metriken in traditionellen Tests wie HumanEval SOTA-Ergebnisse erzielt hat. Die ausgewählten Modelle für den Vergleich waren solche mit weniger als 100 Milliarden Parametern, die im Allgemeinen als stark in FIM-Aufgaben angesehen werden. Darüber hinaus wurde das Kontextfenster von 32k in der Version 2405 (22B Parameter) auf 256k in der neuen Version erweitert. In Tests mit Python- und SQL-Datenbanken belegte CodeStral 2501 durchweg den ersten oder zweiten Platz in mehreren Metriken.
Sprachliche Leistung
CodeStral, das Berichten zufolge über 80 Sprachen unterstützt, erreichte einen durchschnittlichen HumanEval-Score von 71,4 %, fast 6 Prozentpunkte höher als das zweitplatzierte Modell. Es hat auch SOTA-Status in gängigen Sprachen wie Python, C+ und JS erreicht und in C#-Sprach-Scores 50 % überschritten. Interessanterweise hat die Leistung von CodeStral 2501 in Java im Vergleich zum Vorgänger abgenommen.
FIM-Leistung
Das Mistral-Team veröffentlichte auch die FIM-Leistungsdaten für CodeStral 2501, gemessen an der exakten Übereinstimmung mit einer einzelnen Zeile. Der Durchschnittsscore und die individuellen Scores für Python, Java und JS sind im Vergleich zur Vorgängerversion alle verbessert und übertreffen andere Modelle wie die OpenAI FIM API (3.5 Turbo). DeepSeek ist ein enger Konkurrent. Die FIM pass@1-Ergebnisse zeigen ähnliche Trends.
Verfügbarkeit
CodeStral 2501 ist über Mistrals Partner Continue für die Verwendung in VSCode oder Jetbrains IDEs zugänglich. Benutzer können es auch selbst über die API bereitstellen, wobei die Preise bei 0,3/0,9 USD oder EUR pro Million Eingabe-/Ausgabetoken liegen.