Published on

مینی میکس اوپن سورس ماڈل 456B پیرامیٹرز 4M سیاق و سباق

مصنفین
  • avatar
    نام
    Ajax
    Twitter

مینی میکس ایجنٹ کے دور کو گلے لگاتا ہے

آئی اے کمیونٹی میں یہ پیش گوئیاں گردش کر رہی ہیں کہ 2025 آئی اے ایجنٹ کا سال ہوگا۔ انڈسٹری کے رہنما جیسے کہ اوپن اے آئی کے سیم آلٹمین، میٹا کے مارک زکربرگ اور اینویڈیا کے جینسن ہوانگ سب نے یہ تجویز کیا ہے کہ آئی اے ایجنٹس افرادی قوت اور آئی ٹی کے منظر نامے پر نمایاں اثر ڈالیں گے۔ مینی میکس نے اس ابھرتے ہوئے رجحان کا جواب اپنے تازہ ترین بنیادی لسانی ماڈل، MiniMax-Text-01، اور بصری-ملٹی موڈل ماڈل، MiniMax-VL-01 کو اوپن سورس کر کے دیا ہے۔

ان نئے ماڈلز کی ایک اہم اختراع ایک ناول لکیری توجہ میکانزم کا نفاذ ہے، جو سیاق و سباق کی ونڈو کو نمایاں طور پر بڑھاتا ہے۔ مینی میکس کے ماڈلز ایک وقت میں 4 ملین ٹوکنز پروسیس کر سکتے ہیں، جو دوسرے ماڈلز کے مقابلے میں 20 سے 32 گنا زیادہ ہے۔ یہ پیشرفت ایجنٹ ایپلی کیشنز کے لیے بہت اہم ہے، جنہیں میموری اور متعدد ایجنٹس کے درمیان تعاون کا انتظام کرنے کے لیے طویل سیاق و سباق کی ونڈوز کی ضرورت ہوتی ہے۔

مینی میکس کے اوپن سورس ماڈلز کو چلانے والی اختراعات

MiniMax-Text-01 کئی اختراعات کا نتیجہ ہے، بشمول:

  • لائٹننگ اٹینشن: لکیری توجہ کی ایک شکل جو ٹرانسفارمر آرکیٹیکچر کی کمپیوٹیشنل پیچیدگی کو کواڈریٹک سے لکیری تک کم کرتی ہے۔ یہ ایک دائیں پروڈکٹ کرنل ٹرک کے ذریعے حاصل کیا جاتا ہے، جو توجہ کے زیادہ موثر حساب کی اجازت دیتا ہے۔
  • ہائبرڈ-لائٹننگ: لائٹننگ اٹینشن اور سوفٹ میکس اٹینشن کا مجموعہ، جہاں ہر آٹھ تہوں میں لائٹننگ اٹینشن کو سوفٹ میکس اٹینشن سے تبدیل کیا جاتا ہے۔ یہ نقطہ نظر کارکردگی کو برقرار رکھتے ہوئے اسکیلنگ کی صلاحیتوں کو بہتر بناتا ہے۔
  • مکسچر آف ایکسپرٹس (MoE): گھنے ماڈلز کے مقابلے میں، MoE ماڈلز خاص طور پر اس وقت کارکردگی میں نمایاں بہتری ظاہر کرتے ہیں جب کمپیوٹیشنل بوجھ ملتے جلتے ہوں۔ مینی میکس نے MoE ماڈلز کو اسکیل کرتے وقت روٹنگ کے خاتمے کو روکنے کے لیے ایک آل گیدر کمیونیکیشن مرحلہ بھی متعارف کرایا۔
  • کمپیوٹیشنل آپٹیمائزیشن: مینی میکس نے MoE آرکیٹیکچر کے لیے موافقت کی، مواصلات کے بوجھ کو کم کرنے کے لیے ٹوکن گروپنگ پر مبنی اوورلیپ اسکیم کا استعمال کیا۔ طویل سیاق و سباق کی تربیت کے لیے، انہوں نے ایک ڈیٹا پیکنگ تکنیک استعمال کی جہاں تربیتی نمونے ترتیب جہت کے ساتھ آخر سے آخر تک جڑے ہوئے ہیں۔ انہوں نے لائٹننگ اٹینشن کے لیے چار آپٹیمائزیشن حکمت عملی بھی اپنائی: بیچڈ کرنل فیوژن، الگ پری فل اور ڈی کوڈ ایگزیکیوشن، ملٹی لیول پیڈنگ، اور اسٹرائیڈڈ بیچڈ میٹرکس ملٹیپلیکیشن ایکسپینشن۔

ان اختراعات نے 32 ماہرین کے ساتھ 456 بلین پیرامیٹر ایل ایل ایم کی تخلیق کی ہے، جہاں ہر ٹوکن 45.9 بلین پیرامیٹرز کو فعال کرتا ہے۔

MiniMax-Text-01 کی بینچ مارک کارکردگی

MiniMax-Text-01 نے کئی بینچ مارکس پر بہترین کارکردگی کا مظاہرہ کیا ہے، جو بند سورس ماڈلز جیسے کہ GPT-4o اور Claude 3.5 Sonnet کے ساتھ ساتھ اوپن سورس ماڈلز جیسے کہ Qwen2.5 اور Llama 3.1 سے بھی مقابلہ کرتا ہے اور ان سے آگے نکل جاتا ہے۔

  • HumanEval پر، MiniMax-Text-01 نے Instruct Qwen2.5-72B سے بہتر کارکردگی کا مظاہرہ کیا۔
  • اس نے چیلنجنگ GPQA ڈائمنڈ ڈیٹا سیٹ پر 54.4 کا اسکور حاصل کیا، جو زیادہ تر فائن ٹیونڈ LLMs اور تازہ ترین GPT-4o سے آگے ہے۔
  • MiniMax-Text-01 نے MMLU، IFEval اور Arena-Hard میں بھی ٹاپ تھری اسکور حاصل کیے، جو علم کو لاگو کرنے اور صارف کی استفسارات کو مؤثر طریقے سے پورا کرنے کی اس کی صلاحیت کو ظاہر کرتے ہیں۔

اعلیٰ سیاق و سباق کی صلاحیتیں

MiniMax-Text-01 کی توسیعی سیاق و سباق کی ونڈو ایک اہم امتیازی عنصر ہے:

  • Ruler بینچ مارک میں، MiniMax-Text-01 64k سیاق و سباق کی لمبائی تک دوسرے ماڈلز کے مقابلے میں کارکردگی کا مظاہرہ کرتا ہے، لیکن اس کی کارکردگی 128k سے آگے نمایاں طور پر بڑھ جاتی ہے۔
  • ماڈل لانگ بینچ v2 کے طویل سیاق و سباق کے استدلال کے کاموں میں بھی غیر معمولی کارکردگی کا مظاہرہ کرتا ہے۔
  • اس کے علاوہ، MiniMax-Text-01 کی طویل سیاق و سباق سیکھنے کی صلاحیتیں اسٹیٹ آف دی آرٹ ہیں، جیسا کہ MTOB بینچ مارک کے ذریعے تصدیق کی گئی ہے۔

حقیقی دنیا کی ایپلی کیشنز

MiniMax-Text-01 کی صلاحیتیں بینچ مارکس سے آگے تک پھیلی ہوئی ہیں۔

  • یہ تخلیقی مواد تیار کر سکتا ہے، جیسے کہ ایک گانا، جس میں باریک زبان اور جذباتی گہرائی ہو۔
  • یہ پیچیدہ کام انجام دے سکتا ہے جیسے کہ کلامنگ جیسی کم عام زبان کا ترجمہ کرنا، فراہم کردہ ہدایات، گرامر اور الفاظ کا استعمال کرنا۔
  • یہ لمبی گفتگوؤں میں بہترین میموری کا مظاہرہ کرتا ہے۔

MiniMax-VL-01: ایک بصری-لسانی ماڈل

MiniMax-Text-01 پر مبنی، مینی میکس نے ایک ملٹی موڈل ورژن تیار کیا، MiniMax-VL-01، جو ایک امیج انکوڈر اور اڈاپٹر کو مربوط کرتا ہے۔ ماڈل بصری انکوڈنگ کے لیے ایک ViT کا استعمال کرتا ہے جس میں امیج اڈاپٹیشن کے لیے دو پرتوں والا MLP پروجیکٹر ہے۔ اس ماڈل نے ملکیتی ڈیٹا سیٹ اور ایک کثیر مرحلہ تربیتی حکمت عملی کا استعمال کرتے ہوئے امیج لینگویج ڈیٹا کے ساتھ مسلسل تربیت حاصل کی۔

MiniMax-VL-01 مختلف بینچ مارکس پر مضبوط کارکردگی کا مظاہرہ کرتا ہے، اکثر دیگر SOTA ماڈلز سے مماثل یا ان سے زیادہ ہوتا ہے۔ اس نے پیچیدہ بصری ڈیٹا کا تجزیہ کرنے کی صلاحیت ثابت کی ہے، جیسے کہ نیویگیشن میپس۔

آئی اے ایجنٹس کا مستقبل

مینی میکس سیاق و سباق کی ونڈو کی صلاحیتوں کی حدود کو آگے بڑھا رہا ہے، جس میں ایسے فن تعمیرات پر جاری تحقیق جاری ہے جو سوفٹ میکس توجہ کو ختم کر سکتے ہیں اور لامحدود سیاق و سباق کی ونڈوز کو فعال کر سکتے ہیں۔ کمپنی آئی اے ایجنٹس کے لیے ملٹی موڈل ماڈلز کی اہمیت کو تسلیم کرتی ہے، کیونکہ بہت سے حقیقی دنیا کے کاموں کے لیے بصری اور متنی سمجھ کی ضرورت ہوتی ہے۔ مینی میکس کا مقصد ایسے آئی اے ایجنٹس بنانا ہے جو فطری، قابل رسائی اور ہر جگہ موجود ہوں، جن میں جسمانی دنیا کے ساتھ تعامل کرنے کی صلاحیت ہو۔