- Published on
Mistral CodeStral Đạt Vị Trí Hàng Đầu Với Cửa Sổ Ngữ Cảnh 256k
Mistral CodeStral Đạt Vị Trí Hàng Đầu
Mistral, thường được gọi là 'OpenAI của Châu Âu', đã phát hành phiên bản cập nhật của mô hình mã của mình, CodeStral. Phiên bản mới này đã nhanh chóng vươn lên vị trí đầu bảng tại Copilot Arena, đồng hạng nhất với DeepSeek V2.5 và Claude 3.5. Đáng chú ý, cửa sổ ngữ cảnh đã được mở rộng gấp tám lần lên mức ấn tượng 256k.
Hiệu Suất và Tốc Độ Nâng Cao
CodeStral (2501) mới tự hào có kiến trúc và bộ mã hóa token hiệu quả hơn, dẫn đến tốc độ tạo mã tăng gấp đôi so với phiên bản tiền nhiệm. Nó cũng đã đạt được kết quả state-of-the-art (SOTA) trên nhiều benchmark khác nhau và thể hiện khả năng hoàn thành mã (FIM) đáng kể. Theo đối tác Continue.dev của Mistral, phiên bản 2501 đánh dấu một bước tiến quan trọng trong lĩnh vực FIM.
Chiến Thắng Tại Copilot Arena
Trong Copilot Arena, một nền tảng cạnh tranh dành cho các mô hình mã, CodeStral 2501 đã giành được vị trí hàng đầu, ngang bằng với Deepseek V2.5 và Claude 3.5 Sonnet. Điều này đánh dấu sự cải thiện 12 điểm (1.2%) so với phiên bản CodeStral trước đó (2405). Trong khi các mô hình như Llama 3.1, Gemini 1.5 Pro và GPT-4o xếp hạng thấp hơn, việc thiếu o1 cho thấy thứ hạng có thể thay đổi khi nó được đưa vào.
Chi Tiết Về Copilot Arena
Copilot Arena được ra mắt vào tháng 11 năm ngoái thông qua sự hợp tác giữa các nhà nghiên cứu tại Đại học Carnegie Mellon và UC Berkeley, cùng với LMArena. Nó hoạt động tương tự như LLM Arena, nơi người dùng đặt ra các vấn đề và hệ thống chọn ngẫu nhiên hai mô hình để cung cấp các đầu ra ẩn danh. Sau đó, người dùng chọn đầu ra vượt trội. Là phiên bản dành riêng cho mã của LLM Arena, Copilot Arena cũng đóng vai trò là một công cụ lập trình mã nguồn mở cho phép người dùng so sánh nhiều mô hình đồng thời trong VSCode. Hiện tại, 12 mô hình mã đã cạnh tranh trong hơn 17.000 trận chiến.
Kết Quả SOTA Trên Nhiều Benchmark
Mistral cũng chia sẻ rằng CodeStral 2501 đã đạt được kết quả SOTA trong một số chỉ số trên các bài kiểm tra truyền thống như HumanEval. Các mô hình được chọn để so sánh là những mô hình có ít hơn 100B tham số, thường được coi là mạnh trong các tác vụ FIM. Hơn nữa, cửa sổ ngữ cảnh đã tăng từ 32k trong phiên bản 2405 (22B tham số) lên 256k trong phiên bản mới. Trong các bài kiểm tra liên quan đến cơ sở dữ liệu Python và SQL, CodeStral 2501 liên tục xếp hạng nhất hoặc nhì trên nhiều chỉ số.
Hiệu Suất Ngôn Ngữ
CodeStral, được cho là hỗ trợ hơn 80 ngôn ngữ, đạt điểm HumanEval trung bình là 71.4%, cao hơn gần 6 điểm phần trăm so với mô hình xếp thứ hai. Nó cũng đã đạt được trạng thái SOTA trong các ngôn ngữ phổ biến như Python, C+ và JS, và đã vượt quá 50% trong điểm số ngôn ngữ C#. Điều thú vị là hiệu suất của CodeStral 2501 trong Java đã giảm so với phiên bản tiền nhiệm.
Hiệu Suất FIM
Nhóm Mistral cũng đã công bố dữ liệu hiệu suất FIM cho CodeStral 2501, được đo bằng khớp chính xác một dòng. Điểm trung bình và điểm số riêng lẻ của Python, Java và JS đều được cải thiện so với phiên bản trước và vượt qua các mô hình khác như OpenAI FIM API (3.5 Turbo). DeepSeek là một đối thủ cạnh tranh gần. Kết quả FIM pass@1 cho thấy các xu hướng tương tự.
Tính Khả Dụng
CodeStral 2501 có thể được truy cập thông qua đối tác của Mistral, Continue, để sử dụng trong VSCode hoặc Jetbrains IDE. Người dùng cũng có thể tự triển khai nó qua API, với mức giá 0.3/0.9 USD hoặc EUR cho mỗi triệu token đầu vào/đầu ra.