Mistral CodeStral ขึ้นแท่นผู้นำด้วย Context Window 256k

Mistral CodeStral ครองอันดับสูงสุด

Mistral หรือที่รู้จักกันในนาม "European OpenAI" ได้เปิดตัวโมเดลโค้ดรุ่นปรับปรุงใหม่ CodeStral ซึ่งสามารถขึ้นสู่อันดับหนึ่งใน Copilot Arena โดยครองตำแหน่งร่วมกับ DeepSeek V2.5 และ Claude 3.5 ที่น่าสังเกตคือ Context Window ได้ขยายใหญ่ขึ้นถึงแปดเท่าเป็น 256k

ประสิทธิภาพและความเร็วที่เพิ่มขึ้น

CodeStral (2501) รุ่นใหม่นี้มาพร้อมสถาปัตยกรรมและตัวแยกคำที่ปรับปรุงให้มีประสิทธิภาพมากขึ้น ทำให้ความเร็วในการสร้างโค้ดเพิ่มขึ้นเป็นสองเท่าเมื่อเทียบกับรุ่นก่อนหน้า นอกจากนี้ยังได้ผลลัพธ์ที่ล้ำสมัย (SOTA) ในเกณฑ์มาตรฐานต่างๆ และแสดงให้เห็นถึงความสามารถในการเติมโค้ด (FIM) ที่โดดเด่น จากข้อมูลของ Continue.dev ซึ่งเป็นพันธมิตรของ Mistral ระบุว่าเวอร์ชัน 2501 ถือเป็นก้าวสำคัญในด้าน FIM

ชัยชนะใน Copilot Arena

ใน Copilot Arena ซึ่งเป็นแพลตฟอร์มการแข่งขันสำหรับโมเดลโค้ด CodeStral 2501 ได้ขึ้นครองอันดับสูงสุดโดยเสมอกับ Deepseek V2.5 และ Claude 3.5 Sonnet ซึ่งถือเป็นพัฒนาการที่เพิ่มขึ้น 12 จุด (1.2%) เมื่อเทียบกับ CodeStral รุ่นก่อนหน้า (2405) แม้ว่าโมเดลอย่าง Llama 3.1, Gemini 1.5 Pro และ GPT-4o จะอยู่ในอันดับที่ต่ำกว่า แต่การขาดหายไปของ o1 บ่งชี้ว่าอันดับอาจมีการเปลี่ยนแปลงได้หากมีการรวม o1 เข้าไปด้วย

รายละเอียด Copilot Arena

Copilot Arena เปิดตัวเมื่อเดือนพฤศจิกายนที่ผ่านมา โดยความร่วมมือระหว่างนักวิจัยจาก Carnegie Mellon University และ UC Berkeley ร่วมกับ LMArena ซึ่งทำงานคล้ายกับ LLM Arena โดยผู้ใช้จะตั้งปัญหา และระบบจะสุ่มเลือกโมเดลสองตัวเพื่อแสดงผลลัพธ์แบบไม่ระบุชื่อ จากนั้นผู้ใช้จะเลือกผลลัพธ์ที่ดีกว่า ในฐานะที่เป็นเวอร์ชันเฉพาะสำหรับโค้ดของ LLM Arena Copilot Arena ยังทำหน้าที่เป็นเครื่องมือตั้งโปรแกรมโอเพนซอร์สที่ช่วยให้ผู้ใช้สามารถเปรียบเทียบโมเดลต่างๆ ได้พร้อมกันใน VSCode ปัจจุบันมีโมเดลโค้ด 12 ตัวที่เข้าร่วมการแข่งขันมากกว่า 17,000 ครั้ง

ผลลัพธ์ SOTA ในเกณฑ์มาตรฐานหลายรายการ

Mistral ยังเปิดเผยว่า CodeStral 2501 ได้ผลลัพธ์ SOTA ในหลายเมตริกในการทดสอบแบบดั้งเดิม เช่น HumanEval โมเดลที่เลือกสำหรับการเปรียบเทียบคือโมเดลที่มีพารามิเตอร์น้อยกว่า 100B ซึ่งโดยทั่วไปถือว่ามีความแข็งแกร่งในงาน FIM นอกจากนี้ Context Window ยังเพิ่มขึ้นจาก 32k ในเวอร์ชัน 2405 (พารามิเตอร์ 22B) เป็น 256k ในเวอร์ชันใหม่ ในการทดสอบที่เกี่ยวข้องกับฐานข้อมูล Python และ SQL CodeStral 2501 ได้รับการจัดอันดับเป็นอันดับหนึ่งหรือสองอย่างต่อเนื่องในหลายเมตริก

ประสิทธิภาพด้านภาษา

CodeStral ซึ่งรายงานว่ารองรับมากกว่า 80 ภาษา ได้คะแนน HumanEval เฉลี่ย 71.4% ซึ่งสูงกว่าโมเดลที่ได้อันดับสองเกือบ 6 เปอร์เซ็นต์ นอกจากนี้ยังได้รับสถานะ SOTA ในภาษาทั่วไป เช่น Python, C+ และ JS และมีคะแนนเกิน 50% ในภาษา C# ที่น่าสนใจคือประสิทธิภาพของ CodeStral 2501 ใน Java ลดลงเมื่อเทียบกับรุ่นก่อนหน้า

ประสิทธิภาพ FIM

ทีมงาน Mistral ยังได้เปิดเผยข้อมูลประสิทธิภาพ FIM สำหรับ CodeStral 2501 ซึ่งวัดโดยการจับคู่แบบบรรทัดเดียวที่แน่นอน โดยคะแนนเฉลี่ยและคะแนนรายบุคคลสำหรับ Python, Java และ JS ทั้งหมดดีขึ้นเมื่อเทียบกับรุ่นก่อนหน้า และเหนือกว่าโมเดลอื่นๆ เช่น OpenAI FIM API (3.5 Turbo) DeepSeek เป็นคู่แข่งที่ใกล้เคียง ผลลัพธ์ FIM pass@1 แสดงแนวโน้มที่คล้ายกัน

ความพร้อมใช้งาน

CodeStral 2501 สามารถเข้าถึงได้ผ่าน Continue ซึ่งเป็นพันธมิตรของ Mistral สำหรับการใช้งานใน VSCode หรือ Jetbrains IDEs ผู้ใช้ยังสามารถปรับใช้เองผ่าน API โดยมีราคาอยู่ที่ 0.3/0.9 USD หรือ EUR ต่อล้านอินพุต/เอาต์พุตโทเค็น