Mistral CodeStral Lidera Placares com Janela de Contexto de 256k

Mistral CodeStral Alcança o Topo dos Rankings

A Mistral, frequentemente referida como a 'OpenAI Europeia', lançou uma versão atualizada do seu modelo de código, o CodeStral. Esta nova iteração rapidamente ascendeu ao topo do Copilot Arena, partilhando a primeira posição com DeepSeek V2.5 e Claude 3.5. Notavelmente, a janela de contexto foi expandida oito vezes, atingindo impressionantes 256k.

Desempenho e Velocidade Aprimorados

O novo CodeStral (2501) possui uma arquitetura e tokenizador mais eficientes, resultando numa duplicação na velocidade de geração em comparação com o seu antecessor. Também alcançou resultados de ponta (SOTA) em vários benchmarks e demonstra capacidades significativas de preenchimento de código (FIM). De acordo com o parceiro da Mistral, Continue.dev, a versão 2501 marca um avanço significativo no campo do FIM.

Vitória no Copilot Arena

No Copilot Arena, uma plataforma competitiva para modelos de código, o CodeStral 2501 garantiu o primeiro lugar, empatando com Deepseek V2.5 e Claude 3.5 Sonnet. Isso representa uma melhoria de 12 pontos (1,2%) em relação à versão anterior do CodeStral (2405). Embora modelos como Llama 3.1, Gemini 1.5 Pro e GPT-4o estejam classificados mais abaixo, a ausência do o1 sugere que as classificações podem mudar com a sua inclusão.

Detalhes do Copilot Arena

O Copilot Arena foi lançado em novembro passado através de uma colaboração entre pesquisadores da Carnegie Mellon University e UC Berkeley, juntamente com a LMArena. Funciona de forma semelhante ao LLM Arena, onde os utilizadores colocam problemas e o sistema seleciona aleatoriamente dois modelos para fornecer resultados anónimos. Os utilizadores escolhem então o resultado superior. Como uma versão específica para código do LLM Arena, o Copilot Arena também serve como uma ferramenta de programação de código aberto que permite aos utilizadores comparar vários modelos simultaneamente no VSCode. Atualmente, 12 modelos de código competiram em mais de 17.000 batalhas.

Resultados SOTA em Vários Benchmarks

A Mistral também partilhou que o CodeStral 2501 alcançou resultados SOTA em várias métricas em testes tradicionais como o HumanEval. Os modelos selecionados para comparação foram aqueles com menos de 100B de parâmetros, geralmente considerados fortes em tarefas FIM. Além disso, a janela de contexto aumentou de 32k na versão 2405 (22B parâmetros) para 256k na nova versão. Em testes envolvendo bases de dados Python e SQL, o CodeStral 2501 consistentemente ficou em primeiro ou segundo lugar em várias métricas.

Desempenho em Linguagens

O CodeStral, que supostamente suporta mais de 80 linguagens, alcançou uma pontuação média no HumanEval de 71,4%, quase 6 pontos percentuais acima do modelo em segundo lugar. Também alcançou o status SOTA em linguagens comuns como Python, C+ e JS, e excedeu 50% nas pontuações da linguagem C#. Curiosamente, o desempenho do CodeStral 2501 em Java diminuiu em comparação com o seu antecessor.

Desempenho em FIM

A equipa da Mistral também divulgou os dados de desempenho FIM para o CodeStral 2501, medidos por correspondência exata de linha única. A pontuação média e as pontuações individuais de Python, Java e JS foram todas melhoradas em comparação com a versão anterior e superam outros modelos como o OpenAI FIM API (3.5 Turbo). O DeepSeek é um concorrente próximo. Os resultados do FIM pass@1 mostram tendências semelhantes.

Disponibilidade

O CodeStral 2501 está acessível através do parceiro da Mistral, Continue, para uso em VSCode ou IDEs Jetbrains. Os utilizadores também podem implementá-lo eles próprios via API, com preços de 0,3/0,9 USD ou EUR por milhão de tokens de entrada/saída.