מודל הקוד של מיסטרל כובש את הפסגה עם חלון הקשר של 256k

ביצועים משופרים ומהירות מוגברת

CodeStral החדש (2501) מתגאה בארכיטקטורה ובטוקנייזר יעילים יותר, מה שמוביל להכפלת מהירות הדור בהשוואה לקודמו. הוא גם השיג תוצאות חדשניות (SOTA) על פני מדדים שונים ומדגים יכולות השלמת קוד (FIM) משמעותיות. לדברי השותפה של מיסטרל, Continue.dev, גרסת 2501 מסמנת צעד משמעותי קדימה בתחום ה-FIM.

ניצחון בזירת הטייס האוטומטי

בזירת הטייס האוטומטי, פלטפורמה תחרותית למודלי קוד, CodeStral 2501 הבטיח את המקום הראשון, והשווה ל-Deepseek V2.5 ול-Claude 3.5 Sonnet. זה מסמן שיפור של 12 נקודות (1.2%) לעומת גרסת CodeStral הקודמת (2405). בעוד מודלים כמו Llama 3.1, Gemini 1.5 Pro ו-GPT-4o מדורגים נמוך יותר, היעדרות o1 מרמזת שהדירוגים עשויים להשתנות עם הכללתו.

פרטי זירת הטייס האוטומטי

זירת הטייס האוטומטי הושקה בנובמבר האחרון באמצעות שיתוף פעולה בין חוקרים באוניברסיטת קרנגי מלון ואוניברסיטת קליפורניה בברקלי, יחד עם LMArena. היא פועלת בדומה לזירת ה-LLM, שבה משתמשים מציבים בעיות, והמערכת בוחרת באופן אקראי שני מודלים כדי לספק פלטים אנונימיים. לאחר מכן המשתמשים בוחרים את הפלט המעולה. כגרסה ספציפית לקוד של זירת ה-LLM, זירת הטייס האוטומטי משמשת גם ככלי תכנות קוד פתוח המאפשר למשתמשים להשוות מספר מודלים בו זמנית ב-VSCode. נכון לעכשיו, 12 מודלים של קוד התחרו ביותר מ-17,000 קרבות.

תוצאות SOTA על פני מדדים מרובים

מיסטרל שיתפה גם כי CodeStral 2501 השיג תוצאות SOTA במספר מדדים במבחנים מסורתיים כמו HumanEval. המודלים שנבחרו להשוואה היו אלה עם פחות מ-100B פרמטרים, הנחשבים בדרך כלל חזקים במשימות FIM. יתר על כן, חלון ההקשר גדל מ-32k בגרסת 2405 (22B פרמטרים) ל-256k בגרסה החדשה. במבחנים שכללו מסדי נתונים של Python ו-SQL, CodeStral 2501 דורג באופן עקבי במקום הראשון או השני על פני מדדים מרובים.

ביצועי שפה

CodeStral, אשר תומך על פי הדיווחים ביותר מ-80 שפות, השיג ציון HumanEval ממוצע של 71.4%, כמעט 6 נקודות אחוז גבוה יותר מהמודל במקום השני. היא גם השיגה מעמד SOTA בשפות נפוצות כמו Python, C+ ו-JS, ועברה 50% בציוני שפת C#. באופן מעניין, הביצועים של CodeStral 2501 ב-Java ירדו בהשוואה לקודמו.

ביצועי FIM

צוות מיסטרל פרסם גם את נתוני ביצועי ה-FIM עבור CodeStral 2501, שנמדדו על ידי התאמה מדויקת של שורה אחת. הציון הממוצע והציונים האישיים של Python, Java ו-JS כולם השתפרו בהשוואה לגרסה הקודמת ועולים על מודלים אחרים כמו ה-OpenAI FIM API (3.5 Turbo). DeepSeek הוא מתחרה צמוד. תוצאות ה-FIM pass@1 מראות מגמות דומות.

זמינות

CodeStral 2501 נגיש דרך השותפה של מיסטרל, Continue, לשימוש ב-VSCode או Jetbrains IDEs. משתמשים יכולים גם לפרוס אותו בעצמם באמצעות API, עם תמחור של 0.3/0.9 דולר או אירו למיליון אסימוני קלט/פלט.