- Published on
Mistral CodeStral Yafikia Kilele cha Ubora na Dirisha la Muktadha la 256k
Mistral CodeStral Yafikia Kilele cha Ubora
Mistral, ambayo mara nyingi hujulikana kama "OpenAI ya Ulaya," imetoa toleo jipya la mfumo wake wa kuandika msimbo, CodeStral. Toleo hili jipya limepanda kwa haraka hadi kileleni mwa Copilot Arena, likishiriki nafasi ya kwanza na DeepSeek V2.5 na Claude 3.5. Hasa, dirisha la muktadha limepanuliwa mara nane hadi kiwango cha kuvutia cha 256k.
Utendaji na Kasi Iliyoimarishwa
CodeStral mpya (2501) inajivunia usanifu bora na kitambulisha ishara, na kusababisha kuongezeka mara mbili kwa kasi ya utengenezaji ikilinganishwa na toleo lake la awali. Pia imepata matokeo ya hali ya juu (SOTA) katika vipimo mbalimbali na inaonyesha uwezo mkubwa wa kukamilisha msimbo (FIM). Kulingana na mshirika wa Mistral Continue.dev, toleo la 2501 linaashiria hatua muhimu mbele katika uwanja wa FIM.
Ushindi Katika Copilot Arena
Katika Copilot Arena, jukwaa la ushindani kwa mifumo ya msimbo, CodeStral 2501 imepata nafasi ya kwanza, ikishirikiana na Deepseek V2.5 na Claude 3.5 Sonnet. Hii inaashiria ongezeko la pointi 12 (1.2%) ikilinganishwa na toleo la awali la CodeStral (2405). Ingawa mifumo kama Llama 3.1, Gemini 1.5 Pro, na GPT-4o ziko chini, kutokuwepo kwa o1 kunaonyesha kuwa viwango vinaweza kubadilika na kujumuishwa kwake.
Maelezo ya Copilot Arena
Copilot Arena ilizinduliwa Novemba mwaka jana kupitia ushirikiano kati ya watafiti katika Chuo Kikuu cha Carnegie Mellon na UC Berkeley, pamoja na LMArena. Inafanya kazi sawa na LLM Arena, ambapo watumiaji huweka matatizo, na mfumo huchagua mifumo miwili kwa nasibu ili kutoa matokeo yasiyojulikana. Watumiaji kisha huchagua matokeo bora. Kama toleo maalum la msimbo la LLM Arena, Copilot Arena pia hutumika kama zana ya programu huria ambayo huwezesha watumiaji kulinganisha mifumo mingi kwa wakati mmoja katika VSCode. Hivi sasa, mifumo 12 ya msimbo imeshindana katika vita zaidi ya 17,000.
Matokeo ya SOTA Katika Vipimo Mbalimbali
Mistral pia ilishiriki kwamba CodeStral 2501 imepata matokeo ya SOTA katika vipimo kadhaa kwenye majaribio ya kitamaduni kama HumanEval. Mifumo iliyochaguliwa kwa kulinganisha ilikuwa ile yenye vigezo chini ya 100B, ambayo kwa ujumla inachukuliwa kuwa na nguvu katika kazi za FIM. Zaidi ya hayo, dirisha la muktadha limeongezeka kutoka 32k katika toleo la 2405 (vigezo 22B) hadi 256k katika toleo jipya. Katika majaribio yanayohusisha Python na hifadhidata za SQL, CodeStral 2501 ilishika nafasi ya kwanza au ya pili mara kwa mara katika vipimo mbalimbali.
Utendaji wa Lugha
CodeStral, ambayo inaripotiwa kuunga mkono lugha zaidi ya 80, ilipata wastani wa alama ya HumanEval ya 71.4%, karibu pointi 6 za asilimia juu kuliko mfumo wa pili. Pia imefikia hadhi ya SOTA katika lugha za kawaida kama Python, C+, na JS, na imezidi 50% katika alama za lugha ya C#. Kwa kupendeza, utendaji wa CodeStral 2501 katika Java umepungua ikilinganishwa na toleo lake la awali.
Utendaji wa FIM
Timu ya Mistral pia ilitoa data ya utendaji wa FIM kwa CodeStral 2501, iliyopimwa kwa mechi kamili ya mstari mmoja. Alama ya wastani na alama za kibinafsi za Python, Java, na JS zote zimeboreshwa ikilinganishwa na toleo la awali na zinazidi mifumo mingine kama vile OpenAI FIM API (3.5 Turbo). DeepSeek ni mshindani wa karibu. Matokeo ya FIM pass@1 yanaonyesha mwelekeo sawa.
Upatikanaji
CodeStral 2501 inapatikana kupitia mshirika wa Mistral, Continue, kwa matumizi katika VSCode au Jetbrains IDEs. Watumiaji wanaweza pia kuipeleka wenyewe kupitia API, na bei ya 0.3/0.9 USD au EUR kwa kila milioni ya tokeni za ingizo/tokeo.