Mistral CodeStral Menduduki Tangga Teratas Dengan Tetingkap Konteks 256k

CodeStral Mistral Mencapai Kedudukan Teratas

Mistral, yang sering dirujuk sebagai 'OpenAI Eropah', telah mengeluarkan versi terkini model kodnya, CodeStral. Iterasi baharu ini telah dengan cepat menduduki tangga teratas Copilot Arena, berkongsi kedudukan pertama dengan DeepSeek V2.5 dan Claude 3.5. Khususnya, tetingkap konteks telah diperluas lapan kali ganda kepada 256k yang mengagumkan.

Prestasi dan Kelajuan yang Dipertingkatkan

CodeStral (2501) baharu menawarkan seni bina dan tokenizer yang lebih cekap, yang membawa kepada penggandaan kelajuan penjanaan berbanding pendahulunya. Ia juga telah mencapai keputusan terkini (SOTA) merentasi pelbagai penanda aras dan menunjukkan keupayaan penyelesaian kod (FIM) yang ketara. Menurut rakan kongsi Mistral, Continue.dev, versi 2501 menandakan langkah penting ke hadapan dalam bidang FIM.

Kemenangan di Copilot Arena

Di Copilot Arena, platform kompetitif untuk model kod, CodeStral 2501 telah meraih tempat teratas, terikat dengan Deepseek V2.5 dan Claude 3.5 Sonnet. Ini menandakan peningkatan 12 mata (1.2%) berbanding versi CodeStral sebelumnya (2405). Walaupun model seperti Llama 3.1, Gemini 1.5 Pro, dan GPT-4o berada di kedudukan yang lebih rendah, ketiadaan o1 mencadangkan kedudukan mungkin berubah dengan kemasukannya.

Butiran Copilot Arena

Copilot Arena telah dilancarkan pada November lalu melalui kerjasama antara penyelidik di Carnegie Mellon University dan UC Berkeley, bersama dengan LMArena. Ia berfungsi sama dengan LLM Arena, di mana pengguna mengemukakan masalah, dan sistem secara rawak memilih dua model untuk memberikan output tanpa nama. Pengguna kemudian memilih output yang lebih unggul. Sebagai versi khusus kod LLM Arena, Copilot Arena juga berfungsi sebagai alat pengaturcaraan sumber terbuka yang membolehkan pengguna membandingkan pelbagai model secara serentak dalam VSCode. Pada masa ini, 12 model kod telah bersaing dalam lebih 17,000 pertempuran.

Keputusan SOTA Merentasi Pelbagai Penanda Aras

Mistral juga berkongsi bahawa CodeStral 2501 telah mencapai keputusan SOTA dalam beberapa metrik pada ujian tradisional seperti HumanEval. Model yang dipilih untuk perbandingan adalah model dengan parameter kurang daripada 100B, yang secara amnya dianggap kuat dalam tugas FIM. Tambahan pula, tetingkap konteks telah meningkat daripada 32k dalam versi 2405 (22B parameter) kepada 256k dalam versi baharu. Dalam ujian yang melibatkan pangkalan data Python dan SQL, CodeStral 2501 secara konsisten menduduki tempat pertama atau kedua merentasi pelbagai metrik.

Prestasi Bahasa

CodeStral, yang dilaporkan menyokong lebih 80 bahasa, mencapai skor HumanEval purata 71.4%, hampir 6 mata peratusan lebih tinggi daripada model tempat kedua. Ia juga telah mencapai status SOTA dalam bahasa biasa seperti Python, C+, dan JS, dan telah melebihi 50% dalam skor bahasa C#. Menariknya, prestasi CodeStral 2501 dalam Java telah menurun berbanding pendahulunya.

Prestasi FIM

Pasukan Mistral juga mengeluarkan data prestasi FIM untuk CodeStral 2501, diukur dengan padanan tepat satu baris. Skor purata dan skor individu Python, Java, dan JS semuanya bertambah baik berbanding versi sebelumnya dan melepasi model lain seperti OpenAI FIM API (3.5 Turbo). DeepSeek adalah pesaing rapat. Keputusan FIM pass@1 menunjukkan trend yang serupa.

Ketersediaan

CodeStral 2501 boleh diakses melalui rakan kongsi Mistral, Continue, untuk digunakan dalam VSCode atau IDE Jetbrains. Pengguna juga boleh melaksanakannya sendiri melalui API, dengan harga 0.3/0.9 USD atau EUR setiap juta token input/output.