- Published on
بڑے ماڈلز کا کثافت کا قانون: اسکیلنگ قوانین سے پرے ایک نیا تناظر
بڑے ماڈلز کا کثافت کا قانون: ایک نیا تناظر
بڑے ماڈلز کی کارکردگی کو سمجھنے کے لیے ایک نیا نقطہ نظر، سنگھوا یونیورسٹی کی ایک ٹیم نے 'کثافت کا قانون' متعارف کرایا ہے۔ یہ قانون روایتی اسکیلنگ قوانین سے ہٹ کر ہے اور ماڈل کی صلاحیت کی کثافت پر زور دیتا ہے۔ آئیے اس قانون اور اس کے مضمرات کو تفصیل سے دیکھتے ہیں۔
بنیادی خیال
پروفیسر لیو ژیوان کی سربراہی میں سنگھوا یونیورسٹی کی ایک ٹیم نے بڑے ماڈلز کے لیے "کثافت کا قانون" تجویز کیا ہے۔ اس قانون کے مطابق ماڈل کی صلاحیت کی کثافت ہر 100 دن میں دوگنی ہو جاتی ہے۔ یہ قانون چپ انڈسٹری میں مور کے قانون کی طرح ہے اور ماڈل کے پیرامیٹرز کی کارکردگی پر توجہ مرکوز کرتا ہے، نہ کہ صرف اس کے سائز پر۔
پس منظر اور محرک
روایتی اسکیلنگ قوانین بتاتے ہیں کہ ماڈل کی کارکردگی اس کے سائز (پیرامیٹرز) اور تربیتی ڈیٹا میں اضافے کے ساتھ بہتر ہوتی ہے۔ تاہم، نیا "کثافت کا قانون" ایک مختلف نقطہ نظر پیش کرتا ہے، جس میں پیرامیٹرز کے موثر استعمال اور وقت کے ساتھ ماڈل کی کارکردگی میں تیزی سے بہتری پر زور دیا گیا ہے۔ تحقیقی ٹیم نے "صلاحیت کی کثافت" کا تصور متعارف کرایا ہے، جو موثر پیرامیٹرز اور اصل پیرامیٹرز کے تناسب کو ماپتا ہے۔
اہم تصورات
- صلاحیت کی کثافت: اس سے مراد ماڈل میں "مؤثر پیرامیٹرز" اور اصل پیرامیٹرز کا تناسب ہے۔
- مؤثر پیرامیٹرز: یہ پیرامیٹرز کی کم از کم تعداد ہے جو ایک حوالہ ماڈل کو ہدف ماڈل کے برابر کارکردگی حاصل کرنے کے لیے درکار ہوتی ہے۔
- حوالہ ماڈل: ایک ایسا ماڈل جو دوسرے ماڈلز کے مؤثر پیرامیٹر کی تعداد کا تعین کرنے کے لیے ایک معیار کے طور پر استعمال ہوتا ہے۔
- نقصان کا تخمینہ: حوالہ ماڈلز کی ایک سیریز کا استعمال کرتے ہوئے ماڈل پیرامیٹرز اور نقصان کے درمیان تعلق کو فٹ کرنے کا عمل ہے۔
- کارکردگی کا تخمینہ: نقصان اور کارکردگی کے درمیان ایک مکمل نقشہ قائم کرنے کا عمل، ماڈلز میں نئی صلاحیتوں کے ظہور کو مدنظر رکھتے ہوئے۔
کثافت کا قانون
بڑے لینگویج ماڈلز (LLMs) کی زیادہ سے زیادہ صلاحیت کی کثافت وقت کے ساتھ تیزی سے بڑھتی ہے۔ اس ترقی کے لیے فارمولہ یہ ہے: ln(ρmax) = At + B، جہاں ρmax وقت t پر زیادہ سے زیادہ صلاحیت کی کثافت ہے۔ اس قانون سے پتہ چلتا ہے کہ جدید ترین ماڈلز کی کارکردگی ہر 3.3 مہینے (تقریباً 100 دن) میں آدھے پیرامیٹرز کے ساتھ حاصل کی جا سکتی ہے۔
کثافت کے قانون کے مضمرات
- استخراجی لاگت میں کمی: ماڈل کی استخراجی لاگت وقت کے ساتھ تیزی سے کم ہو رہی ہے۔ مثال کے طور پر، GPT-3.5 سے Gemini-1.5-Flash تک فی ملین ٹوکن لاگت میں نمایاں کمی واقع ہوئی ہے۔
- صلاحیت کی کثافت میں تیز رفتار اضافہ: ChatGPT کے اجراء کے بعد سے، صلاحیت کی کثافت میں اضافے کی شرح تیز ہو گئی ہے۔
- مور کے قانون اور کثافت کے قانون کا ملاپ: چپ کی بڑھتی ہوئی کثافت (مور کا قانون) اور ماڈل کی صلاحیت کی کثافت (کثافت کا قانون) کا ملاپ طاقتور آن ڈیوائس AI کی صلاحیت کی نشاندہی کرتا ہے۔
- ماڈل کمپریشن کی حدود: ماڈل کمپریشن کی تکنیکیں اکیلے صلاحیت کی کثافت کو بہتر نہیں کر سکتیں۔ درحقیقت، زیادہ تر کمپریسڈ ماڈلز کی کثافت ان کے اصل ہم منصبوں سے کم ہوتی ہے۔
- ماڈل کی زندگی کے چکر میں کمی: صلاحیت کی کثافت میں تیزی سے اضافے کا مطلب ہے کہ اعلی کارکردگی والے ماڈلز کی مؤثر زندگی کم ہوتی جا رہی ہے، جس کی وجہ سے منافع کے لیے ایک مختصر وقت ملتا ہے۔
وسیع تناظر
کثافت کا قانون ایک بڑے رجحان کا حصہ ہے جہاں AI کے دور کے بنیادی انجن — بجلی، کمپیوٹنگ پاور اور انٹیلی جنس — سبھی تیزی سے کثافت میں اضافہ کر رہے ہیں۔
- بیٹری کی توانائی کی کثافت گزشتہ 20 سالوں میں چار گنا بڑھ گئی ہے۔
- چپ ٹرانزسٹر کی کثافت ہر 18 ماہ میں دوگنی ہو جاتی ہے (مور کا قانون)۔
- AI ماڈل کی صلاحیت کی کثافت ہر 100 دن میں دوگنی ہو جاتی ہے۔
یہ رجحان زیادہ موثر AI کی جانب تبدیلی کی نشاندہی کرتا ہے، جس سے توانائی اور کمپیوٹنگ وسائل کی مانگ میں کمی واقع ہوتی ہے۔ ایج کمپیوٹنگ اور مقامی AI ماڈلز کے عروج کی توقع ہے، جس سے ایک ایسا مستقبل پیدا ہو گا جہاں AI ہر جگہ موجود ہو گا۔
اضافی نکات
- تحقیقی ٹیم نے صلاحیت کی کثافت کے رجحان کا تجزیہ کرنے کے لیے 29 بڑے پیمانے پر استعمال ہونے والے اوپن سورس ماڈلز کا استعمال کیا۔
- مطالعہ میں روشنی ڈالی گئی ہے کہ ماڈل کی صلاحیت کی کثافت کو بڑھانے کے لیے صرف ماڈل کمپریشن الگورتھم پر انحصار کرنا کافی نہیں ہے۔
- تحقیقی مقالہ اس لنک پر دستیاب ہے: Densing Law of LLMs
اس مقالے میں، ہم نے بڑے ماڈلز کے لیے کثافت کے قانون کے بارے میں ایک جامع جائزہ فراہم کیا ہے۔ یہ قانون نہ صرف AI کی کارکردگی کو سمجھنے میں مدد کرتا ہے بلکہ مستقبل میں AI کی ترقی کے راستے پر بھی روشنی ڈالتا ہے۔