- Published on
مایسترال کدسترال در صدر جدول رده بندی با پنجره زمینه 256k
دستیابی مایسترال کدسترال به رتبه برتر
مایسترال که اغلب به عنوان 'OpenAI اروپایی' شناخته می شود، نسخه به روز شده ای از مدل کد خود، CodeStral را منتشر کرده است. این تکرار جدید به سرعت به صدر Copilot Arena صعود کرده و جایگاه اول را با DeepSeek V2.5 و Claude 3.5 به اشتراک گذاشته است. قابل توجه است که پنجره زمینه هشت برابر افزایش یافته و به 256k چشمگیر رسیده است.
عملکرد و سرعت بهبود یافته
کدسترال جدید (2501) دارای معماری و توکن ساز کارآمدتری است که منجر به دو برابر شدن سرعت تولید در مقایسه با نسخه قبلی خود شده است. همچنین نتایج پیشرفته ای (SOTA) را در معیارهای مختلف به دست آورده و قابلیت های تکمیل کد (FIM) قابل توجهی را نشان می دهد. به گفته Continue.dev، شریک مایسترال، نسخه 2501 گام مهمی در زمینه FIM محسوب می شود.
پیروزی در Copilot Arena
در Copilot Arena، یک پلتفرم رقابتی برای مدل های کد، CodeStral 2501 جایگاه برتر را به دست آورده و با Deepseek V2.5 و Claude 3.5 Sonnet هم رتبه شده است. این نشان دهنده بهبود 12 امتیازی (1.2%) نسبت به نسخه قبلی کدسترال (2405) است. در حالی که مدل هایی مانند Llama 3.1، Gemini 1.5 Pro و GPT-4o در رتبه های پایین تری قرار دارند، عدم وجود o1 نشان می دهد که رتبه بندی با گنجاندن آن ممکن است تغییر کند.
جزئیات Copilot Arena
Copilot Arena در نوامبر گذشته از طریق همکاری بین محققان دانشگاه کارنگی ملون و UC برکلی به همراه LMArena راه اندازی شد. این عملکرد مشابه LLM Arena است، جایی که کاربران مشکلاتی را مطرح می کنند و سیستم به طور تصادفی دو مدل را برای ارائه خروجی های ناشناس انتخاب می کند. سپس کاربران خروجی برتر را انتخاب می کنند. Copilot Arena به عنوان یک نسخه خاص کد از LLM Arena، همچنین به عنوان یک ابزار برنامه نویسی متن باز عمل می کند که به کاربران امکان می دهد چندین مدل را به طور همزمان در VSCode مقایسه کنند. در حال حاضر، 12 مدل کد در بیش از 17000 نبرد به رقابت پرداخته اند.
نتایج SOTA در معیارهای مختلف
مایسترال همچنین به اشتراک گذاشت که CodeStral 2501 به نتایج SOTA در چندین معیار در آزمایش های سنتی مانند HumanEval دست یافته است. مدل های انتخاب شده برای مقایسه مدل هایی با کمتر از 100 میلیارد پارامتر بودند که به طور کلی در وظایف FIM قوی در نظر گرفته می شوند. علاوه بر این، پنجره زمینه از 32k در نسخه 2405 (22 میلیارد پارامتر) به 256k در نسخه جدید افزایش یافته است. در آزمایش های مربوط به پایگاه های داده پایتون و SQL، CodeStral 2501 به طور مداوم در چندین معیار رتبه اول یا دوم را کسب کرده است.
عملکرد زبانی
کدسترال که گزارش شده از بیش از 80 زبان پشتیبانی می کند، میانگین امتیاز HumanEval 71.4% را به دست آورده است که تقریباً 6 درصد بیشتر از مدل رتبه دوم است. همچنین در زبان های رایج مانند پایتون، C+ و JS به وضعیت SOTA رسیده و از 50% در امتیازات زبان C# فراتر رفته است. جالب اینجاست که عملکرد CodeStral 2501 در جاوا در مقایسه با نسخه قبلی خود کاهش یافته است.
عملکرد FIM
تیم مایسترال همچنین داده های عملکرد FIM را برای CodeStral 2501 منتشر کرد که با مطابقت دقیق تک خطی اندازه گیری شده است. میانگین امتیاز و امتیازات فردی پایتون، جاوا و JS همگی در مقایسه با نسخه قبلی بهبود یافته اند و از مدل های دیگری مانند OpenAI FIM API (3.5 Turbo) پیشی گرفته اند. DeepSeek یک رقیب نزدیک است. نتایج FIM pass@1 روندهای مشابهی را نشان می دهد.
دسترسی
CodeStral 2501 از طریق شریک مایسترال، Continue، برای استفاده در VSCode یا Jetbrains IDEs در دسترس است. کاربران همچنین می توانند آن را از طریق API با قیمت 0.3/0.9 دلار یا یورو به ازای هر میلیون توکن ورودی/خروجی مستقر کنند.