Mistral CodeStral 256k Bağlam Penceresiyle Liderlik Tablosunda Zirvede

Mistral'in CodeStral'ı Zirveye Yerleşti

Avrupa'nın OpenAI'i olarak da anılan Mistral, kod modeli CodeStral'ın güncellenmiş bir versiyonunu yayınladı. Bu yeni yineleme, Copilot Arena'da hızla yükselerek DeepSeek V2.5 ve Claude 3.5 ile birinciliği paylaşıyor. Özellikle, bağlam penceresi sekiz kat artırılarak etkileyici bir 256k'ya çıkarıldı.

Gelişmiş Performans ve Hız

Yeni CodeStral (2501), daha verimli bir mimari ve tokenizer sunarak, önceki modeline kıyasla üretim hızında iki kat artış sağlıyor. Ayrıca, çeşitli kıyaslamalarda en son teknoloji (SOTA) sonuçlarına ulaştı ve önemli kod tamamlama (FIM) yetenekleri sergiliyor. Mistral'in ortağı Continue.dev'e göre, 2501 versiyonu FIM alanında önemli bir adımı temsil ediyor.

Copilot Arena Zaferi

Kod modelleri için rekabetçi bir platform olan Copilot Arena'da, CodeStral 2501, Deepseek V2.5 ve Claude 3.5 Sonnet ile berabere kalarak zirveye yerleşti. Bu, önceki CodeStral versiyonuna (2405) göre 12 puan (%1,2) iyileşme anlamına geliyor. Llama 3.1, Gemini 1.5 Pro ve GPT-4o gibi modeller daha alt sıralarda yer alırken, o1'in yokluğu sıralamaların dahil edilmesiyle değişebileceğini gösteriyor.

Copilot Arena Detayları

Copilot Arena, geçtiğimiz Kasım ayında Carnegie Mellon Üniversitesi ve UC Berkeley'deki araştırmacılar ile LMArena işbirliğiyle başlatıldı. LLM Arena'ya benzer şekilde çalışır; kullanıcılar problemler sunar ve sistem rastgele iki model seçerek anonim çıktılar sağlar. Kullanıcılar daha sonra üstün çıktıyı seçer. LLM Arena'nın koda özel bir versiyonu olarak Copilot Arena, kullanıcıların VSCode'da birden çok modeli aynı anda karşılaştırmasına olanak tanıyan açık kaynaklı bir programlama aracı olarak da hizmet veriyor. Şu anda, 12 kod modeli 17.000'den fazla savaşta yarıştı.

Birden Çok Kıyaslamada SOTA Sonuçları

Mistral ayrıca, CodeStral 2501'in HumanEval gibi geleneksel testlerde çeşitli metriklerde SOTA sonuçları elde ettiğini paylaştı. Karşılaştırma için seçilen modeller, genellikle FIM görevlerinde güçlü kabul edilen 100B'den az parametreye sahip olanlardı. Ayrıca, bağlam penceresi 2405 sürümünde (22B parametre) 32k'dan yeni sürümde 256k'ya yükseltildi. Python ve SQL veritabanlarını içeren testlerde, CodeStral 2501 sürekli olarak birden çok metrikte birinci veya ikinci sırada yer aldı.

Dil Performansı

Raporlara göre 80'den fazla dili destekleyen CodeStral, ortalama %71,4'lük bir HumanEval puanına ulaştı; bu, ikinci sıradaki modelden yaklaşık 6 yüzde puanı daha yüksek. Ayrıca, Python, C+ ve JS gibi yaygın dillerde SOTA statüsüne ulaştı ve C# dil puanlarında %50'yi aştı. İlginç bir şekilde, CodeStral 2501'in Java'daki performansı, önceki modeline kıyasla düşüş gösterdi.

FIM Performansı

Mistral ekibi ayrıca, tek satırlık tam eşleşmeyle ölçülen CodeStral 2501'in FIM performans verilerini de yayınladı. Ortalama puan ve Python, Java ve JS bireysel puanları, önceki sürüme kıyasla iyileştirildi ve OpenAI FIM API (3.5 Turbo) gibi diğer modelleri aşıyor. DeepSeek yakın bir rakip olarak öne çıkıyor. FIM pass@1 sonuçları da benzer eğilimler gösteriyor.

Kullanılabilirlik

CodeStral 2501, VSCode veya Jetbrains IDE'lerinde kullanılmak üzere Mistral'in ortağı Continue aracılığıyla erişilebilir. Kullanıcılar ayrıca API aracılığıyla kendileri de dağıtabilirler ve fiyatlandırma milyon giriş/çıkış tokeni başına 0,3/0,9 USD veya EUR olarak belirlenmiştir.