Mistral CodeStral au Sommet des Classements avec une Fenêtre Contextuelle de 256k

Mistral CodeStral au Sommet des Classements

Mistral, souvent surnommée l'« OpenAI européenne », a lancé une version mise à jour de son modèle de code, CodeStral. Cette nouvelle itération s'est rapidement hissée au sommet de la Copilot Arena, partageant la première place avec DeepSeek V2.5 et Claude 3.5. Notamment, la fenêtre contextuelle a été multipliée par huit pour atteindre un impressionnant 256k.

Performances et Vitesse Améliorées

Le nouveau CodeStral (2501) bénéficie d'une architecture et d'un tokenizer plus efficaces, ce qui a permis de doubler la vitesse de génération par rapport à son prédécesseur. Il a également obtenu des résultats de pointe (SOTA) dans divers benchmarks et démontre des capacités significatives de complétion de code (FIM). Selon Continue.dev, partenaire de Mistral, la version 2501 marque une avancée significative dans le domaine du FIM.

Victoire à la Copilot Arena

Dans la Copilot Arena, une plateforme compétitive pour les modèles de code, CodeStral 2501 a décroché la première place, à égalité avec Deepseek V2.5 et Claude 3.5 Sonnet. Cela représente une amélioration de 12 points (1,2 %) par rapport à la version précédente de CodeStral (2405). Bien que des modèles tels que Llama 3.1, Gemini 1.5 Pro et GPT-4o soient classés plus bas, l'absence de o1 suggère que les classements pourraient changer avec son inclusion.

Détails de la Copilot Arena

La Copilot Arena a été lancée en novembre dernier grâce à une collaboration entre des chercheurs de l'Université Carnegie Mellon et de l'UC Berkeley, ainsi que LMArena. Elle fonctionne de manière similaire à la LLM Arena, où les utilisateurs posent des problèmes et le système sélectionne au hasard deux modèles pour fournir des sorties anonymes. Les utilisateurs choisissent ensuite la sortie supérieure. En tant que version spécifique au code de la LLM Arena, Copilot Arena sert également d'outil de programmation open source qui permet aux utilisateurs de comparer plusieurs modèles simultanément dans VSCode. Actuellement, 12 modèles de code ont participé à plus de 17 000 batailles.

Résultats SOTA dans de Multiples Benchmarks

Mistral a également partagé que CodeStral 2501 a obtenu des résultats SOTA dans plusieurs métriques lors de tests traditionnels comme HumanEval. Les modèles sélectionnés pour la comparaison étaient ceux avec moins de 100 milliards de paramètres, généralement considérés comme performants dans les tâches FIM. De plus, la fenêtre contextuelle est passée de 32k dans la version 2405 (22 milliards de paramètres) à 256k dans la nouvelle version. Dans les tests impliquant des bases de données Python et SQL, CodeStral 2501 s'est constamment classé premier ou deuxième dans plusieurs métriques.

Performances Linguistiques

CodeStral, qui prend en charge plus de 80 langues, a obtenu un score moyen HumanEval de 71,4 %, soit près de 6 points de pourcentage de plus que le modèle classé deuxième. Il a également atteint le statut SOTA dans des langues courantes comme Python, C+ et JS, et a dépassé 50 % dans les scores de langue C#. Il est intéressant de noter que les performances de CodeStral 2501 en Java ont diminué par rapport à son prédécesseur.

Performances FIM

L'équipe Mistral a également publié les données de performance FIM pour CodeStral 2501, mesurées par la correspondance exacte sur une seule ligne. Le score moyen et les scores individuels pour Python, Java et JS ont tous été améliorés par rapport à la version précédente et dépassent d'autres modèles comme l'API OpenAI FIM (3.5 Turbo). DeepSeek est un concurrent proche. Les résultats FIM pass@1 montrent des tendances similaires.

Disponibilité

CodeStral 2501 est accessible via Continue, le partenaire de Mistral, pour une utilisation dans VSCode ou Jetbrains IDEs. Les utilisateurs peuvent également le déployer eux-mêmes via API, avec un prix de 0,3/0,9 USD ou EUR par million de tokens d'entrée/sortie.