CodeStral di Mistral Raggiunge la Vetta delle Classifiche con Finestra di Contesto 256k

CodeStral di Mistral Raggiunge la Vetta delle Classifiche

Mistral, spesso definita l' 'OpenAI europea', ha rilasciato una versione aggiornata del suo modello di codice, CodeStral. Questa nuova iterazione è rapidamente salita in cima alla Copilot Arena, condividendo la prima posizione con DeepSeek V2.5 e Claude 3.5. In particolare, la finestra di contesto è stata espansa di otto volte, raggiungendo un'impressionante dimensione di 256k.

Prestazioni e Velocità Ottimizzate

Il nuovo CodeStral (2501) vanta un'architettura e un tokenizer più efficienti, che portano a un raddoppio della velocità di generazione rispetto al suo predecessore. Ha anche ottenuto risultati all'avanguardia (SOTA) in vari benchmark e dimostra significative capacità di completamento del codice (FIM). Secondo il partner di Mistral, Continue.dev, la versione 2501 segna un significativo passo avanti nel campo della FIM.

Vittoria nella Copilot Arena

Nella Copilot Arena, una piattaforma competitiva per modelli di codice, CodeStral 2501 si è assicurato il primo posto, a pari merito con Deepseek V2.5 e Claude 3.5 Sonnet. Questo segna un miglioramento di 12 punti (1.2%) rispetto alla precedente versione di CodeStral (2405). Mentre modelli come Llama 3.1, Gemini 1.5 Pro e GPT-4o si classificano più in basso, l'assenza di o1 suggerisce che le classifiche potrebbero cambiare con la sua inclusione.

Dettagli sulla Copilot Arena

La Copilot Arena è stata lanciata lo scorso novembre grazie alla collaborazione tra ricercatori della Carnegie Mellon University e dell'UC Berkeley, insieme a LMArena. Funziona in modo simile alla LLM Arena, dove gli utenti pongono problemi e il sistema seleziona casualmente due modelli per fornire output anonimi. Gli utenti quindi scelgono l'output superiore. Come versione specifica per il codice della LLM Arena, la Copilot Arena funge anche da strumento di programmazione open-source che consente agli utenti di confrontare più modelli contemporaneamente in VSCode. Attualmente, 12 modelli di codice hanno gareggiato in oltre 17.000 battaglie.

Risultati SOTA in Diversi Benchmark

Mistral ha anche condiviso che CodeStral 2501 ha ottenuto risultati SOTA in diverse metriche su test tradizionali come HumanEval. I modelli selezionati per il confronto erano quelli con meno di 100B di parametri, generalmente considerati forti nelle attività FIM. Inoltre, la finestra di contesto è aumentata da 32k nella versione 2405 (22B di parametri) a 256k nella nuova versione. Nei test che coinvolgono database Python e SQL, CodeStral 2501 si è costantemente classificato al primo o al secondo posto in diverse metriche.

Prestazioni Linguistiche

CodeStral, che supporta oltre 80 lingue, ha ottenuto un punteggio medio HumanEval del 71.4%, quasi 6 punti percentuali in più rispetto al modello al secondo posto. Ha anche raggiunto lo stato SOTA in lingue comuni come Python, C++ e JS e ha superato il 50% nei punteggi in linguaggio C#. È interessante notare che le prestazioni di CodeStral 2501 in Java sono diminuite rispetto al suo predecessore.

Prestazioni FIM

Il team di Mistral ha anche rilasciato i dati sulle prestazioni FIM per CodeStral 2501, misurati con corrispondenza esatta a riga singola. Il punteggio medio e i punteggi individuali di Python, Java e JS sono tutti migliorati rispetto alla versione precedente e superano altri modelli come l'API OpenAI FIM (3.5 Turbo). DeepSeek è un concorrente vicino. I risultati FIM pass@1 mostrano tendenze simili.

Disponibilità

CodeStral 2501 è accessibile tramite il partner di Mistral, Continue, per l'uso in VSCode o IDE Jetbrains. Gli utenti possono anche implementarlo autonomamente tramite API, con prezzi di 0.3/0.9 USD o EUR per milione di token di input/output.