Published on

مينيماكس تكشف عن نموذج مفتوح المصدر بـ 456 مليار معلمة وسياق 4 ملايين

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

مينيماكس تتبنى عصر الوكيل الذكي

يتوقع مجتمع الذكاء الاصطناعي أن يكون عام 2025 هو عام الوكيل الذكي. وقد أشار قادة الصناعة مثل سام ألتمان من OpenAI، ومارك زوكربيرج من Meta، وجينسن هوانغ من Nvidia إلى أن الوكلاء الذكيين سيؤثرون بشكل كبير على القوى العاملة ومشهد تكنولوجيا المعلومات. استجابت مينيماكس لهذا الاتجاه الناشئ من خلال فتح مصدر أحدث نموذج لغوي أساسي لها، MiniMax-Text-01، ونموذج مرئي متعدد الوسائط، MiniMax-VL-01.

ابتكارات تقود نماذج مينيماكس مفتوحة المصدر

يكمن الابتكار الرئيسي في هذه النماذج الجديدة في تطبيق آلية انتباه خطية جديدة، والتي توسع بشكل كبير نافذة السياق. يمكن لنماذج مينيماكس معالجة 4 ملايين رمز في وقت واحد، وهو ما يزيد بمقدار 20 إلى 32 مرة عن النماذج الأخرى. هذا التقدم حاسم لتطبيقات الوكيل، التي تتطلب نوافذ سياق طويلة لإدارة الذاكرة والتعاون بين وكلاء متعددين.

  • Lightning Attention: شكل من أشكال الانتباه الخطي الذي يقلل من التعقيد الحسابي لبنية Transformer من تربيعي إلى خطي. يتم تحقيق ذلك من خلال خدعة kernel للمنتج الأيمن، مما يسمح بحساب أكثر كفاءة للانتباه.
  • Hybrid-lightning: مزيج من Lightning Attention و softmax attention، حيث يتم استبدال Lightning Attention بـ softmax attention كل ثماني طبقات. يحسن هذا النهج قدرات التوسع مع الحفاظ على الكفاءة.
  • Mixture of Experts (MoE): مقارنة بالنماذج الكثيفة، تُظهر نماذج MoE تحسينات كبيرة في الأداء، خاصة عندما تكون الأحمال الحسابية متشابهة. قدمت مينيماكس أيضًا خطوة اتصال allgather لمنع انهيار التوجيه عند توسيع نماذج MoE.
  • Computational Optimization: قامت مينيماكس بتحسين بنية MoE باستخدام مخطط تداخل قائم على تجميع الرموز لتقليل أحمال الاتصال. للتدريب على السياق الطويل، استخدموا تقنية تجميع البيانات حيث يتم توصيل عينات التدريب من طرف إلى طرف على طول بُعد التسلسل. كما اعتمدوا أربع استراتيجيات تحسين لـ Lightning Attention: دمج kernel المجمعة، وتنفيذ prefill وفك التشفير بشكل منفصل، والتعبئة متعددة المستويات، وتوسيع ضرب المصفوفة المجمعة المخططة.

أدت هذه الابتكارات إلى إنشاء نموذج لغوي كبير (LLM) بـ 456 مليار معلمة مع 32 خبيرًا، حيث ينشط كل رمز 45.9 مليار معلمة.

أداء MiniMax-Text-01 في المقارنات المعيارية

أظهر MiniMax-Text-01 أداءً ممتازًا في العديد من المقارنات المعيارية، منافسًا وحتى متجاوزًا النماذج مغلقة المصدر مثل GPT-4o و Claude 3.5 Sonnet، بالإضافة إلى النماذج مفتوحة المصدر مثل Qwen2.5 و Llama 3.1.

  • في HumanEval، يتفوق MiniMax-Text-01 على Instruct Qwen2.5-72B.
  • حقق درجة 54.4 في مجموعة بيانات GPQA Diamond الصعبة، متجاوزًا معظم النماذج اللغوية الكبيرة (LLMs) المضبوطة بدقة وأحدث GPT-4o.
  • حقق MiniMax-Text-01 أيضًا أعلى ثلاث درجات في MMLU و IFEval و Arena-Hard، مما يدل على قدرته على تطبيق المعرفة وتلبية استفسارات المستخدمين بفعالية.

قدرات سياقية فائقة

تعتبر نافذة السياق الممتدة لـ MiniMax-Text-01 عاملاً رئيسيًا للتفريق:

  • في معيار Ruler، يؤدي MiniMax-Text-01 بشكل مشابه للنماذج الأخرى حتى طول سياق 64 ألف، ولكن أداءه يزيد بشكل كبير بعد 128 ألف.
  • يُظهر النموذج أيضًا أداءً استثنائيًا في مهام الاستدلال ذات السياق الطويل في LongBench v2.
  • بالإضافة إلى ذلك، فإن قدرات التعلم ذات السياق الطويل لـ MiniMax-Text-01 هي الأحدث، كما تم التحقق منها بواسطة معيار MTOB.

تطبيقات واقعية

تمتد قدرات MiniMax-Text-01 إلى ما هو أبعد من المقارنات المعيارية.

  • يمكنه إنشاء محتوى إبداعي، مثل أغنية، بلغة دقيقة وعمق عاطفي.
  • يمكنه أداء مهام معقدة مثل ترجمة لغة أقل شيوعًا مثل كالامانج، باستخدام التعليمات والقواعد والمفردات المقدمة.
  • يظهر ذاكرة ممتازة في المحادثات الطويلة.

MiniMax-VL-01: نموذج مرئي لغوي

استنادًا إلى MiniMax-Text-01، طورت مينيماكس نسخة متعددة الوسائط، MiniMax-VL-01، والتي تدمج مشفر صور ومحول. يستخدم النموذج ViT للترميز المرئي مع جهاز عرض MLP ذو طبقتين لتكييف الصور. خضع هذا النموذج لتدريب مستمر باستخدام بيانات الصورة واللغة باستخدام مجموعة بيانات خاصة واستراتيجية تدريب متعددة المراحل.

يُظهر MiniMax-VL-01 أداءً قويًا في مختلف المقارنات المعيارية، وغالبًا ما يطابق أو يتجاوز نماذج SOTA الأخرى. لقد أثبت قدرته على تحليل البيانات المرئية المعقدة، مثل خرائط الملاحة.

مستقبل وكلاء الذكاء الاصطناعي

تعمل مينيماكس على دفع حدود قدرات نافذة السياق، مع أبحاث جارية في البنى التي قد تقضي على softmax attention وتمكن من نوافذ سياق لا نهائية. تدرك الشركة أهمية النماذج متعددة الوسائط للوكلاء الذكيين، حيث تتطلب العديد من المهام الواقعية فهمًا مرئيًا ونصيًا. تهدف مينيماكس إلى إنشاء وكلاء ذكاء اصطناعي طبيعيين ويمكن الوصول إليهم وفي كل مكان، مع القدرة على التفاعل مع العالم المادي.