CodeStral de Mistral Lidera con Ventana de Contexto de 256k

El Ascenso de CodeStral de Mistral al Liderazgo

Mistral, a menudo denominada la 'OpenAI europea', ha lanzado una versión actualizada de su modelo de código, CodeStral. Esta nueva iteración ha ascendido rápidamente a la cima de la Copilot Arena, compartiendo el primer puesto con DeepSeek V2.5 y Claude 3.5. Notablemente, la ventana de contexto se ha expandido ocho veces hasta alcanzar una impresionante capacidad de 256k.

Rendimiento y Velocidad Mejorados

El nuevo CodeStral (2501) presume de una arquitectura y un tokenizador más eficientes, lo que ha llevado a una duplicación en la velocidad de generación en comparación con su predecesor. También ha logrado resultados de vanguardia (SOTA) en varios benchmarks y demuestra significativas capacidades de finalización de código (FIM). Según el socio de Mistral, Continue.dev, la versión 2501 marca un paso significativo en el campo de FIM.

Victoria en la Copilot Arena

En la Copilot Arena, una plataforma competitiva para modelos de código, CodeStral 2501 ha asegurado el primer puesto, empatando con Deepseek V2.5 y Claude 3.5 Sonnet. Esto marca una mejora de 12 puntos (1.2%) con respecto a la versión anterior de CodeStral (2405). Si bien modelos como Llama 3.1, Gemini 1.5 Pro y GPT-4o se clasifican más abajo, la ausencia de o1 sugiere que las clasificaciones podrían cambiar con su inclusión.

Detalles de la Copilot Arena

La Copilot Arena se lanzó el pasado noviembre mediante una colaboración entre investigadores de la Universidad Carnegie Mellon y UC Berkeley, junto con LMArena. Funciona de manera similar a la LLM Arena, donde los usuarios plantean problemas y el sistema selecciona aleatoriamente dos modelos para proporcionar salidas anónimas. Luego, los usuarios eligen la salida superior. Como versión específica para código de la LLM Arena, Copilot Arena también sirve como herramienta de programación de código abierto que permite a los usuarios comparar múltiples modelos simultáneamente en VSCode. Actualmente, 12 modelos de código han competido en más de 17,000 batallas.

Resultados SOTA en Múltiples Benchmarks

Mistral también compartió que CodeStral 2501 ha logrado resultados SOTA en varias métricas en pruebas tradicionales como HumanEval. Los modelos seleccionados para la comparación fueron aquellos con menos de 100B parámetros, generalmente considerados fuertes en tareas FIM. Además, la ventana de contexto ha aumentado de 32k en la versión 2405 (22B parámetros) a 256k en la nueva versión. En pruebas que involucran bases de datos Python y SQL, CodeStral 2501 consistentemente se clasificó en primer o segundo lugar en múltiples métricas.

Rendimiento en Lenguajes

CodeStral, que según se informa admite más de 80 idiomas, logró una puntuación promedio de HumanEval del 71.4%, casi 6 puntos porcentuales más alta que el modelo en segundo lugar. También ha alcanzado el estado SOTA en idiomas comunes como Python, C+ y JS, y ha superado el 50% en las puntuaciones del lenguaje C#. Curiosamente, el rendimiento de CodeStral 2501 en Java ha disminuido en comparación con su predecesor.

Rendimiento en FIM

El equipo de Mistral también publicó los datos de rendimiento de FIM para CodeStral 2501, medidos por coincidencia exacta de una sola línea. La puntuación promedio y las puntuaciones individuales de Python, Java y JS mejoran en comparación con la versión anterior y superan a otros modelos como la API FIM de OpenAI (3.5 Turbo). DeepSeek es un competidor cercano. Los resultados de FIM pass@1 muestran tendencias similares.

Disponibilidad

CodeStral 2501 está accesible a través del socio de Mistral, Continue, para su uso en VSCode o IDE de Jetbrains. Los usuarios también pueden implementarlo ellos mismos a través de la API, con un precio de 0.3/0.9 USD o EUR por millón de tokens de entrada/salida.