Published on

کیمی کے 1.5 ماڈل نے اوپن اے آئی کے o1 ماڈل کو ٹکر دی

مصنفین
  • avatar
    نام
    Ajax
    Twitter

کیمی کے 1.5 ماڈل کا تعارف

مصنوعی ذہانت کی دنیا میں، مون شاٹ اے آئی کی جانب سے کیمی کے 1.5 ملٹی موڈل ماڈل کی نقاب کشائی کے ساتھ ایک اہم پیش رفت ہوئی ہے۔ اس انقلابی ماڈل نے اوپن اے آئی کے مکمل ورژن o1 کے مقابلے میں کارکردگی کی سطح کا مظاہرہ کیا ہے، جو کہ اوپن اے آئی کے علاوہ کسی اور ادارے کی جانب سے پہلے کبھی حاصل نہیں کیا گیا تھا۔ یہ پیش رفت جدید اے آئی صلاحیتوں کے حصول میں ایک نئے باب کا آغاز کرتی ہے، جو عالمی مقابلے کے تناظر میں ملکی جدت کی صلاحیت کو ظاہر کرتی ہے۔

کیمی کے 1.5 ماڈل کی خصوصیات

کیمی کے 1.5 ماڈل مختلف شعبوں میں اپنی جامع صلاحیتوں کے لیے نمایاں ہے، بشمول ریاضی، کوڈنگ اور ملٹی موڈل استدلال۔ ان شعبوں میں اس کی کارکردگی نہ صرف مکمل o1 ورژن کے مقابلے میں ہے بلکہ بعض پہلوؤں میں اس سے بھی بڑھ کر ہے۔ خاص طور پر، کیمی-کے 1.5-شارٹ ویرینٹ ایک جدید ترین (SOTA) شارٹ چین آف تھاٹ (CoT) ماڈل کے طور پر ابھرتا ہے، جو GPT-4o اور Claude 3.5 Sonnet کو حیران کن طور پر 550% سے زیادہ سے پیچھے چھوڑ دیتا ہے۔ یہ اہم پیش رفت ماڈل کی غیر معمولی صلاحیتوں اور اے آئی کی کارکردگی کے معیارات کو نئے سرے سے متعین کرنے کی اس کی صلاحیت کو اجاگر کرتی ہے۔

مون شاٹ اے آئی کی شفافیت

مون شاٹ اے آئی کی کامیابی محض ایک تکنیکی سنگ میل نہیں ہے بلکہ اس شفافیت اور باہمی تعاون کے جذبے کا ثبوت ہے جو اکثر مسابقتی اے آئی منظر نامے میں مفقود ہوتا ہے۔ اپنی تکنیکی رپورٹ شائع کر کے، مون شاٹ اے آئی وسیع تر ٹیک کمیونٹی کو اپنی کام کی جانچ پڑتال کرنے، اس سے سیکھنے اور اس میں حصہ ڈالنے کی دعوت دیتا ہے۔ یہ اقدام ان کے اس یقین کو اجاگر کرتا ہے کہ مصنوعی عمومی ذہانت (AGI) کی جانب سفر ایک اجتماعی کوشش ہے، جس میں متنوع صلاحیتوں اور نقطہ نظر کی شرکت درکار ہے۔

کیمی کے 1.5 ماڈل کی جانچ

کیمی کے 1.5 ماڈل کی جامع جانچ سے کئی اہم شعبوں میں اس کی SOTA حیثیت کا پتہ چلتا ہے۔ لانگ-CoT موڈ میں، یہ ریاضی، کوڈنگ اور ملٹی موڈل استدلال میں اوپن اے آئی o1 کی سرکاری ریلیز کی کارکردگی سے میل کھاتا ہے۔ AIME (77.5)، MATH 500 (96.2)، Codeforces (94th percentile)، اور MathVista (74.9) جیسے بینچ مارکس پر اس کے اسکور اس کی مہارت کے اشارے ہیں۔ یہ کامیابی اوپن اے آئی سے باہر کسی کمپنی کی جانب سے مکمل o1 کارکردگی کی سطح تک پہنچنے کی پہلی مثال ہے۔

مزید برآں، شارٹ-CoT موڈ میں، کیمی کے 1.5 ماڈل نے عالمی SOTA کارکردگی کا مظاہرہ کیا ہے، جو GPT-4o اور Claude 3.5 Sonnet کو نمایاں طور پر پیچھے چھوڑ دیتا ہے۔ AIME (60.8)، MATH500 (94.6)، اور LiveCodeBench (47.3) پر اس کے اسکور شارٹ چین آف تھاٹ استدلال میں اس کی غیر معمولی صلاحیتوں کا ثبوت ہیں۔ یہ نتائج محض اعداد و شمار نہیں ہیں؛ وہ ملٹی موڈل اے آئی ماڈلز کی صلاحیتوں میں ایک پیراڈائم شفٹ کی نمائندگی کرتے ہیں۔

کیمی کے 1.5 ماڈل کی ترقی

کیمی کے 1.5 ماڈل کی ترقی محض قسمت کی بات نہیں تھی بلکہ ایک سوچے سمجھے اور اختراعی انداز کا نتیجہ تھی۔ مون شاٹ اے آئی کی ٹیم نے تسلیم کیا کہ پری ٹریننگ کے دوران محض پیرامیٹرز کو بڑھانے سے مطلوبہ نتائج حاصل نہیں ہوں گے۔ انہوں نے بہتری کے ایک اہم شعبے کے طور پر کمک سیکھنے پر مبنی پوسٹ ٹریننگ کی جانب توجہ مرکوز کی۔ یہ نقطہ نظر ماڈل کو انعام پر مبنی تلاش کے ذریعے اپنے تربیتی ڈیٹا کو وسعت دینے کی اجازت دیتا ہے، اس طرح اس کی کمپیوٹیشنل صلاحیتوں کو بڑھاتا ہے۔

کمک سیکھنے کا فریم ورک

تکنیکی رپورٹ میں ٹیم کی جانب سے کمک سیکھنے (RL) کی تربیتی تکنیکوں، ملٹی موڈل ڈیٹا کی ترکیبوں اور انفراسٹرکچر کی اصلاح کی تلاش کی تفصیلات دی گئی ہیں۔ ان کا RL فریم ورک، خاص طور پر، سیدھا اور موثر دونوں ہے، جو مونٹی کارلو ٹری سرچ اور ویلیو فنکشنز جیسی زیادہ پیچیدہ تکنیکوں سے گریز کرتا ہے۔ انہوں نے لانگ 2 شارٹ تکنیک بھی متعارف کرائی، جو شارٹ-CoT ماڈلز کی کارکردگی کو بڑھانے کے لیے لانگ-CoT ماڈلز سے فائدہ اٹھاتی ہے۔

RL فریم ورک کے اہم عناصر

ٹیم کے RL فریم ورک کی بنیاد دو اہم عناصر پر ہے: طویل سیاق و سباق کی توسیع اور پالیسی کی بہتر اصلاح۔ سیاق و سباق کی ونڈو کو 128k تک بڑھا کر، انہوں نے ماڈل کی کارکردگی میں مسلسل بہتری دیکھی۔ وہ تربیتی کارکردگی کو بہتر بنانے کے لیے جزوی رول آؤٹ کا بھی استعمال کرتے ہیں، نئے نمونے لینے کے لیے پرانے ٹریجیکٹریز کو دوبارہ استعمال کرتے ہیں۔ ٹیم نے لانگ-CoT کے ساتھ کمک سیکھنے کا ایک فارمولا بھی اخذ کیا، جو مضبوط پالیسی کی اصلاح کے لیے آن لائن مرر ڈیسنٹ کی ایک قسم کو استعمال کرتا ہے۔

لانگ 2 شارٹ تکنیک

لانگ 2 شارٹ تکنیک میں کئی طریقے شامل ہیں، جن میں ماڈل مرجنگ، شارٹسٹ ریجیکشن سیمپلنگ، ڈی پی او، اور لانگ 2 شارٹ آر ایل شامل ہیں۔ ماڈل مرجنگ بہتر ٹوکن کی کارکردگی حاصل کرنے کے لیے لانگ-CoT اور شارٹ-CoT ماڈلز کو یکجا کرتی ہے۔ شارٹسٹ ریجیکشن سیمپلنگ فائن ٹیوننگ کے لیے مختصر ترین درست ردعمل کا انتخاب کرتی ہے۔ ڈی پی او تربیتی ڈیٹا کے لیے مختصر اور طویل ردعمل کے جوڑے استعمال کرتا ہے۔ لانگ 2 شارٹ آر ایل میں لمبائی جرمانے کے ساتھ ایک علیحدہ تربیتی مرحلہ شامل ہے۔

مستقبل کے منصوبے

مستقبل میں، مون شاٹ اے آئی اپنے کے سیریز کے کمک سیکھنے والے ماڈلز کی اپ گریڈ کو تیز کرنے کے لیے پرعزم ہے۔ ان کا مقصد مزید طریقوں، وسیع تر صلاحیتوں اور بہتر عمومی صلاحیتوں کو متعارف کرانا ہے۔ یہ پرجوش وژن انہیں عالمی اے آئی منظر نامے میں ایک اہم کھلاڑی کے طور پر پیش کرتا ہے، جو اوپن اے آئی جیسے قائم شدہ کھلاڑیوں کے غلبے کو چیلنج کرنے کے لیے تیار ہے۔

کیمی کے 1.5 ماڈل کی اہمیت

کیمی کے 1.5 ماڈل محض ایک تکنیکی کامیابی سے بڑھ کر ہے؛ یہ اے آئی سیکٹر میں ملکی جدت کی صلاحیت کی علامت ہے۔ اپنی غیر معمولی کارکردگی اور اپنی تربیتی تفصیلات کے کھلے عام اشتراک کے ساتھ، کیمی کے 1.5 نے دنیا بھر میں اے آئی کی ترقی کے لیے ایک نیا معیار قائم کیا ہے۔ اس کی ریلیز کے لیے توقعات بہت زیادہ ہیں، اور اس کے اثرات گہرے ہونے کی توقع ہے۔