مسترا'ل كودسترال تتصدر القوائم مع نافذة سياق 256 ألف

مسترا'ل كودسترال تحقق أعلى تصنيف

أصدرت شركة مسترا'ل، التي يشار إليها غالبًا باسم 'OpenAI الأوروبية'، نسخة محدثة من نموذج التعليمات البرمجية الخاص بها، CodeStral. وقد ارتقى هذا التكرار الجديد بسرعة إلى قمة Copilot Arena، ليتقاسم المركز الأول مع DeepSeek V2.5 و Claude 3.5. والجدير بالذكر أن نافذة السياق قد تم توسيعها ثمانية أضعاف لتصل إلى 256 ألفًا مثيرة للإعجاب.

أداء وسرعة محسّنان

يتميز CodeStral الجديد (2501) ببنية ومُحلل رموز أكثر كفاءة، مما يؤدي إلى مضاعفة سرعة الإنشاء مقارنة بسابقه. كما حقق نتائج متطورة (SOTA) عبر معايير مختلفة ويظهر قدرات كبيرة في إكمال التعليمات البرمجية (FIM). وفقًا لشريك مسترا'ل Continue.dev، يمثل الإصدار 2501 خطوة كبيرة إلى الأمام في مجال FIM.

الفوز في Copilot Arena

في Copilot Arena، وهي منصة تنافسية لنماذج التعليمات البرمجية، حصل CodeStral 2501 على المركز الأول، متعادلًا مع Deepseek V2.5 و Claude 3.5 Sonnet. ويمثل هذا تحسنًا بمقدار 12 نقطة (1.2٪) عن إصدار CodeStral السابق (2405). في حين أن النماذج مثل Llama 3.1 و Gemini 1.5 Pro و GPT-4o تحتل مرتبة أدنى، فإن غياب o1 يشير إلى أن الترتيب قد يتغير مع تضمينه.

تفاصيل Copilot Arena

تم إطلاق Copilot Arena في نوفمبر الماضي من خلال تعاون بين الباحثين في جامعة كارنيجي ميلون وجامعة كاليفورنيا في بيركلي، جنبًا إلى جنب مع LMArena. وهي تعمل بشكل مشابه لـ LLM Arena، حيث يطرح المستخدمون المشكلات، ويختار النظام عشوائيًا نموذجين لتقديم مخرجات مجهولة. ثم يختار المستخدمون الناتج الأفضل. وباعتبارها نسخة خاصة بالتعليمات البرمجية من LLM Arena، فإن Copilot Arena تعمل أيضًا كأداة برمجة مفتوحة المصدر تتيح للمستخدمين مقارنة نماذج متعددة في وقت واحد في VSCode. حاليًا، تنافست 12 نموذجًا للتعليمات البرمجية في أكثر من 17000 معركة.

نتائج SOTA عبر معايير متعددة

شاركت مسترا'ل أيضًا أن CodeStral 2501 حقق نتائج SOTA في العديد من المقاييس في الاختبارات التقليدية مثل HumanEval. كانت النماذج التي تم اختيارها للمقارنة هي تلك التي تحتوي على أقل من 100 مليار معلمة، والتي تعتبر بشكل عام قوية في مهام FIM. علاوة على ذلك، زادت نافذة السياق من 32 ألفًا في الإصدار 2405 (22 مليار معلمة) إلى 256 ألفًا في الإصدار الجديد. في الاختبارات التي تتضمن قواعد بيانات Python و SQL، احتلت CodeStral 2501 باستمرار المرتبة الأولى أو الثانية عبر مقاييس متعددة.

أداء اللغة

حقق CodeStral، الذي يُقال إنه يدعم أكثر من 80 لغة، متوسط درجة HumanEval بنسبة 71.4٪، أي ما يقرب من 6 نقاط مئوية أعلى من النموذج صاحب المركز الثاني. كما حقق وضع SOTA في اللغات الشائعة مثل Python و C + و JS، وتجاوز 50٪ في درجات لغة C #. ومن المثير للاهتمام أن أداء CodeStral 2501 في Java قد انخفض مقارنة بسابقه.

أداء FIM

أصدر فريق مسترا'ل أيضًا بيانات أداء FIM لـ CodeStral 2501، والتي تم قياسها بمطابقة دقيقة لسطر واحد. تم تحسين متوسط النتيجة والنتائج الفردية لـ Python و Java و JS مقارنة بالإصدار السابق وتتجاوز النماذج الأخرى مثل OpenAI FIM API (3.5 Turbo). ديبسيك منافس قريب. تظهر نتائج FIM pass@1 اتجاهات مماثلة.

التوفر

يمكن الوصول إلى CodeStral 2501 من خلال شريك مسترا'ل، Continue، للاستخدام في VSCode أو Jetbrains IDEs. يمكن للمستخدمين أيضًا نشره بأنفسهم عبر API، بأسعار 0.3 / 0.9 دولار أمريكي أو يورو لكل مليون رمز إدخال / إخراج.