- Published on
مدل متن باز مینیمکس با 456 میلیارد پارامتر و پنجره متنی 4 میلیون توکن
مینیمکس وارد عصر عامل هوش مصنوعی میشود
جامعه هوش مصنوعی پیش بینی می کند که سال 2025 سال عامل هوش مصنوعی خواهد بود. رهبران صنعت مانند سم آلتمن از OpenAI، مارک زاکربرگ از متا و جنسن هوانگ از Nvidia همگی اظهار داشته اند که عوامل هوش مصنوعی تأثیر قابل توجهی بر نیروی کار و چشم انداز فناوری اطلاعات خواهند گذاشت. مینیمکس با انتشار متن باز آخرین مدل زبان پایه خود، MiniMax-Text-01، و مدل چندوجهی بصری، MiniMax-VL-01، به این روند نوظهور پاسخ داده است.
نوآوری های مدل های متن باز مینیمکس
یکی از نوآوری های کلیدی این مدل های جدید، پیاده سازی یک مکانیسم توجه خطی جدید است که به طور قابل توجهی پنجره متنی را گسترش می دهد. مدلهای مینیمکس میتوانند 4 میلیون توکن را به طور همزمان پردازش کنند که 20 تا 32 برابر بیشتر از سایر مدلها است. این پیشرفت برای برنامه های کاربردی عامل که به پنجره های متنی طولانی برای مدیریت حافظه و همکاری بین چندین عامل نیاز دارند، بسیار مهم است.
نوآوری های MiniMax-Text-01
MiniMax-Text-01 نتیجه چندین نوآوری است، از جمله:
- Lightning Attention: شکلی از توجه خطی که پیچیدگی محاسباتی معماری Transformer را از درجه دوم به خطی کاهش می دهد. این امر از طریق یک ترفند هسته محصول راست به دست می آید که امکان محاسبات کارآمدتر توجه را فراهم می کند.
- Hybrid-lightning: ترکیبی از Lightning Attention و توجه softmax، که در آن Lightning Attention هر هشت لایه با توجه softmax جایگزین می شود. این رویکرد قابلیت های مقیاس پذیری را بهبود می بخشد و در عین حال کارایی را حفظ می کند.
- Mixture of Experts (MoE): در مقایسه با مدل های متراکم، مدل های MoE به ویژه زمانی که بارهای محاسباتی مشابه هستند، بهبودهای عملکرد قابل توجهی را نشان می دهند. مینیمکس همچنین یک مرحله ارتباطی allgather را برای جلوگیری از فروپاشی مسیریابی هنگام مقیاس بندی مدل های MoE معرفی کرد.
- بهینه سازی محاسباتی: مینیمکس معماری MoE را با استفاده از طرح همپوشانی مبتنی بر گروه بندی توکن برای کاهش بار ارتباطی بهینه کرد. برای آموزش طولانی مدت، آنها از تکنیک بسته بندی داده استفاده کردند که در آن نمونه های آموزشی در امتداد بعد دنباله به صورت سرتاسر به هم متصل می شوند. آنها همچنین چهار استراتژی بهینه سازی را برای Lightning Attention اتخاذ کردند: همجوشی هسته ای دسته ای، اجرای جداگانه prefill و decode، padding چند سطحی و گسترش ضرب ماتریس دسته ای گام به گام. این نوآوری ها منجر به ایجاد یک LLM با 456 میلیارد پارامتر با 32 متخصص شده است، که در آن هر توکن 45.9 میلیارد پارامتر را فعال می کند.
عملکرد معیار MiniMax-Text-01
MiniMax-Text-01 عملکرد بسیار خوبی را در چندین معیار نشان داده است و با مدل های بسته سورس مانند GPT-4o و Claude 3.5 Sonnet و همچنین مدل های متن باز مانند Qwen2.5 و Llama 3.1 رقابت می کند و حتی از آنها پیشی می گیرد.
- در HumanEval، MiniMax-Text-01 از Instruct Qwen2.5-72B بهتر عمل می کند.
- در مجموعه داده چالش برانگیز GPQA Diamond، نمره 54.4 را به دست آورد و از اکثر LLM های تنظیم شده و آخرین GPT-4o پیشی گرفت.
- MiniMax-Text-01 همچنین در MMLU، IFEval و Arena-Hard رتبه های برتر را کسب کرد که نشان دهنده توانایی آن در به کارگیری دانش و پاسخگویی موثر به درخواست های کاربر است.
قابلیت های متنی برتر
پنجره متنی گسترده MiniMax-Text-01 یک عامل تمایز کلیدی است:
- در معیار Ruler، MiniMax-Text-01 تا طول متن 64k با سایر مدل ها قابل مقایسه است، اما عملکرد آن فراتر از 128k به طور قابل توجهی افزایش می یابد.
- این مدل همچنین عملکرد فوق العاده ای را در وظایف استدلال طولانی مدت LongBench v2 نشان می دهد.
- علاوه بر این، توانایی های یادگیری طولانی مدت MiniMax-Text-01 بر اساس معیار MTOB، به روز است.
کاربردهای دنیای واقعی
قابلیت های MiniMax-Text-01 فراتر از معیارها است.
- می تواند محتوای خلاقانه مانند یک آهنگ را با زبان دقیق و عمق احساسی تولید کند.
- می تواند وظایف پیچیده ای مانند ترجمه یک زبان کمتر رایج مانند Kalamang را با استفاده از دستورالعمل ها، دستور زبان و واژگان ارائه شده انجام دهد.
- حافظه بسیار خوبی را در مکالمات طولانی نشان می دهد.
MiniMax-VL-01: یک مدل بصری-زبانی
بر اساس MiniMax-Text-01، مینیمکس یک نسخه چندوجهی، MiniMax-VL-01 را توسعه داد که یک رمزگذار و آداپتور تصویر را ادغام می کند. این مدل از ViT برای رمزگذاری بصری با یک پروجکتور MLP دو لایه برای تطبیق تصویر استفاده می کند. این مدل با استفاده از یک مجموعه داده اختصاصی و یک استراتژی آموزشی چند مرحله ای، آموزش مداوم با داده های تصویر-زبان را گذراند.
MiniMax-VL-01 عملکرد قوی در معیارهای مختلف نشان می دهد و اغلب با سایر مدل های SOTA مطابقت دارد یا از آنها فراتر می رود. ثابت شده است که قادر به تجزیه و تحلیل داده های بصری پیچیده مانند نقشه های ناوبری است.
آینده عوامل هوش مصنوعی
مینیمکس در حال پیشبرد مرزهای قابلیتهای پنجره متنی است و تحقیقات مداومی را در مورد معماریهایی انجام میدهد که ممکن است توجه softmax را حذف کرده و پنجرههای متنی بینهایت را فعال کند. این شرکت اهمیت مدلهای چندوجهی را برای عوامل هوش مصنوعی تشخیص میدهد، زیرا بسیاری از وظایف دنیای واقعی نیاز به درک بصری و متنی دارند. مینیمکس قصد دارد عوامل هوش مصنوعی را ایجاد کند که طبیعی، در دسترس و فراگیر باشند و پتانسیل تعامل با دنیای فیزیکی را داشته باشند.