Published on

Mistral CodeStral Ungguli Papan Peringkat dengan Jendela Konteks 256K

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Peningkatan Performa dan Kecepatan CodeStral

Model CodeStral (2501) yang baru menawarkan arsitektur dan tokenizer yang lebih efisien, menghasilkan kecepatan generasi dua kali lipat dibandingkan pendahulunya. Model ini juga mencapai hasil state-of-the-art (SOTA) di berbagai tolok ukur dan menunjukkan kemampuan penyelesaian kode (FIM) yang signifikan. Menurut mitra Mistral, Continue.dev, versi 2501 ini menandai langkah maju yang signifikan dalam bidang FIM.

Kemenangan di Copilot Arena

Di Copilot Arena, sebuah platform kompetitif untuk model kode, CodeStral 2501 telah mengamankan posisi teratas, seri dengan Deepseek V2.5 dan Claude 3.5 Sonnet. Ini menandai peningkatan 12 poin (1,2%) dibandingkan versi CodeStral sebelumnya (2405). Sementara model seperti Llama 3.1, Gemini 1.5 Pro, dan GPT-4o berada di peringkat lebih rendah, tidak adanya o1 menunjukkan peringkat dapat bergeser dengan dimasukkannya model tersebut.

Detail Copilot Arena

Copilot Arena diluncurkan November lalu melalui kolaborasi antara peneliti di Carnegie Mellon University dan UC Berkeley, bersama dengan LMArena. Arena ini berfungsi mirip dengan LLM Arena, di mana pengguna mengajukan masalah, dan sistem secara acak memilih dua model untuk memberikan output anonim. Pengguna kemudian memilih output yang lebih unggul. Sebagai versi khusus kode dari LLM Arena, Copilot Arena juga berfungsi sebagai alat pemrograman sumber terbuka yang memungkinkan pengguna untuk membandingkan beberapa model secara bersamaan di VSCode. Saat ini, 12 model kode telah berkompetisi dalam lebih dari 17.000 pertempuran.

Hasil SOTA di Berbagai Tolok Ukur

Mistral juga membagikan bahwa CodeStral 2501 telah mencapai hasil SOTA dalam beberapa metrik pada tes tradisional seperti HumanEval. Model yang dipilih untuk perbandingan adalah model dengan parameter kurang dari 100B, yang umumnya dianggap kuat dalam tugas FIM. Selain itu, jendela konteks telah meningkat dari 32k dalam versi 2405 (22B parameter) menjadi 256k dalam versi baru. Dalam tes yang melibatkan database Python dan SQL, CodeStral 2501 secara konsisten menduduki peringkat pertama atau kedua di berbagai metrik.

Performa Bahasa

CodeStral, yang dilaporkan mendukung lebih dari 80 bahasa, mencapai skor HumanEval rata-rata 71,4%, hampir 6 poin persentase lebih tinggi dari model peringkat kedua. Model ini juga telah mencapai status SOTA dalam bahasa umum seperti Python, C+, dan JS, dan telah melampaui 50% dalam skor bahasa C#. Menariknya, kinerja CodeStral 2501 dalam Java telah menurun dibandingkan dengan pendahulunya.

Performa FIM

Tim Mistral juga merilis data kinerja FIM untuk CodeStral 2501, yang diukur dengan kecocokan tepat satu baris. Skor rata-rata dan skor individu Python, Java, dan JS semuanya meningkat dibandingkan dengan versi sebelumnya dan melampaui model lain seperti OpenAI FIM API (3.5 Turbo). DeepSeek adalah pesaing dekat. Hasil FIM pass@1 menunjukkan tren serupa.

Ketersediaan

CodeStral 2501 dapat diakses melalui mitra Mistral, Continue, untuk digunakan di VSCode atau Jetbrains IDE. Pengguna juga dapat menggunakannya sendiri melalui API, dengan harga 0,3/0,9 USD atau EUR per juta token input/output.