Published on

بڑے لسانی ماڈلز میں میموری کی رکاوٹ کو کم کرنے کے لیے ملٹی میٹرکس فیکٹرائزیشن توجہ

مصنفین
  • avatar
    نام
    Ajax
    Twitter

بڑے لسانی ماڈلز میں میموری کی رکاوٹ کو کم کرنے کے لیے ملٹی میٹرکس فیکٹرائزیشن توجہ

بڑے لسانی ماڈلز (LLMs) کا بڑھتا ہوا استعمال اور استدلال میں نئے نمونے موثر بڑے پیمانے پر استدلال کے چیلنج کو سامنے لائے ہیں۔ روایتی توجہ کے طریقہ کار میں کلیدی قدر (KV) کیش ایک اہم رکاوٹ ہے، جو بیچ سائز اور ترتیب کی لمبائی کے ساتھ خطی طور پر بڑھتی ہے، اور LLMs کے پیمانے اور توسیع میں رکاوٹ بنتی ہے۔ اگرچہ MQA، GQA، اور MLA جیسی مختلف حالتیں اس مسئلے کو حل کرنے کے لیے سامنے آئی ہیں، لیکن وہ اکثر سخت میموری کی رکاوٹوں کے تحت کارکردگی کو برقرار رکھنے یا انجینئرنگ کے مسائل اور مطابقت کے مسائل کو متعارف کرانے میں جدوجہد کرتی ہیں۔

ملٹی میٹرکس فیکٹرائزیشن توجہ (MFA)

اسٹیپس، سنگھوا یونیورسٹی اور دیگر اداروں کے محققین کی جانب سے ایک حالیہ مقالے میں ایک نیا توجہ طریقہ کار پیش کیا گیا ہے: ملٹی میٹرکس فیکٹرائزیشن اٹینشن (MFA) اور اس کی ایک قسم MFA-Key-Reuse (MFA-KR)۔ یہ طریقہ کار لسانی ماڈل کے استدلال کی لاگت کو نمایاں طور پر کم کرتا ہے جبکہ کارکردگی کو بھی بہتر بناتا ہے۔ MFA اور MFA-KR نہ صرف MLA سے بہتر کارکردگی کا مظاہرہ کرتے ہیں بلکہ روایتی MHA کی کارکردگی سے بھی میل کھاتے ہیں جبکہ KV کیش کے استعمال کو 93.7 فیصد تک کم کرتے ہیں۔ MFA کو سادگی، آسانی سے دوبارہ پیش کرنے، ہائپر پیرامیٹرز کے لیے کم حساسیت، اور مختلف Pos-embedding طریقوں کے ساتھ مطابقت کے لیے ڈیزائن کیا گیا ہے۔

MFA نقطہ نظر اور تجزیہ

تحقیقی ٹیم نے توجہ کے طریقہ کار کے عمومی ڈیزائن اور صلاحیت کا تجزیہ کیا، اور صلاحیت سے متعلق دو اہم جہتوں کی نشاندہی کی۔ اس تجزیے کی وجہ سے نئے تجزیاتی طریقوں اور ڈیزائن کے اصولوں کو تیار کیا گیا۔ انہوں نے مختلف MHA اقسام کو سمجھنے کے لیے ایک متحد فریم ورک کے طور پر جنرالائزڈ ملٹی ہیڈ اٹینشن (GMHA) کا تصور پیش کیا۔ ٹیم نے استدلال کے تناظر میں کلیدی قدروں کی کمپیوٹیشن اور اسٹوریج کا بھی جائزہ لیا اور ماڈل کی صلاحیت کو ایک ڈیکمپوزیشن کے تناظر میں جانچا۔ مکمل طور پر پیرامیٹرائزڈ بلینیئر اٹینشن (FPBA) کو کارکردگی کی نظریاتی بالائی حد کے طور پر قائم کیا گیا۔ انہوں نے پایا کہ MHA اور اس کی مختلف حالتیں FPBA کی کم درجے کی ڈیکمپوزیشن ہیں۔

MQA اور MLA کے ساتھ موازنہ

تجزیہ دو نمائندہ بہتری اسکیموں پر مرکوز تھا: ملٹی کوئری اٹینشن (MQA) اور ملٹی ہیڈ لیٹنٹ اٹینشن (MLA)۔ MQA ایک زیادہ جارحانہ پیرامیٹر شیئرنگ حکمت عملی استعمال کرتا ہے، جہاں تمام توجہ والے سر ایک ہی کلیدی قدر پیرامیٹرز کا سیٹ شیئر کرتے ہیں۔ یہ میموری کے استعمال کو کم کرتا ہے لیکن ماڈل کے اظہار پر اثر انداز ہو سکتا ہے۔ MLA پیرامیٹر کمپریشن کے لیے ایک مشترکہ پوشیدہ جگہ متعارف کراتا ہے، لیکن اصل اظہار کی طاقت سب سے چھوٹی جہت سے محدود ہوتی ہے، یعنی انٹرمیڈیٹ جہتوں کو بڑھانے سے کارکردگی میں نمایاں بہتری نہیں آتی ہے۔

MFA کلیدی اختراعات

MFA کی ترقی کا مقصد ایک ایسا توجہ کا طریقہ کار بنانا تھا جو نظریاتی کارکردگی کی حدود کے قریب پہنچتے ہوئے وسائل کی کھپت کو کم سے کم کرے۔ MFA کے ڈیزائن میں تین اہم اختراعات شامل ہیں:

  • ماڈل کی صلاحیت کو زیادہ سے زیادہ کرنے کے لیے توجہ والے سروں کی تعداد اور جہت کو نمایاں طور پر بڑھانا۔
  • توجہ والے سر کی تعداد اور جہتوں کو بڑھاتے ہوئے پیرامیٹر کی کارکردگی کو برقرار رکھنے کے لیے ایک جارحانہ کم درجے کی ڈیکمپوزیشن حکمت عملی کا استعمال کرنا۔
  • ماڈل کی پیچیدگی میں اضافے کے باوجود میموری کی کھپت کو کم سے کم رکھنے کے لیے ایک واحد کلیدی قدر سر کا ڈیزائن استعمال کرنا۔

صلاحیت کی پیمائش اور موازنہ

MFA اور دیگر توجہ کے طریقہ کار کا مزید تجزیہ کرنے کے لیے، ٹیم نے دو اہم میٹرکس متعارف کرائے:

  • ٹوٹل ایفیکٹو رینک (TER): توجہ والے سروں کی تعداد اور فی سر فیکٹرائزیشن رینک (FRH) کا پروڈکٹ۔
  • شیئرڈ لیٹنٹ سب اسپیس ڈائمینشن (SLSD): پوشیدہ جگہ کی جہت جو تمام توجہ والے سروں کے ذریعے مشترک ہے۔

MFA MQA کے مقابلے میں زیادہ SLSD اور TER حاصل کرتا ہے۔ MLA کے مقابلے میں، MFA اسی پیرامیٹر بجٹ کے ساتھ کم KV کیش سائز اور زیادہ TER حاصل کرتا ہے، جبکہ ایک موازنہ SLSD کو برقرار رکھتا ہے۔ روایتی MHA کے مقابلے میں، MFA میں زیادہ TER ہے، حالانکہ اس کا SLSD چھوٹا ہے۔

تجرباتی نتائج

نئے فن تعمیر کی کارکردگی کا بڑے پیمانے پر جائزہ لینے کے لیے وسیع تجربات کیے گئے، 1B سے 7B پیرامیٹرز تک کے ماڈلز اور 10B سے 1T تک کے تربیتی ڈیٹا کی جانچ کی گئی۔ MFA نے روایتی MHA کے مقابلے میں بڑے پیمانے پر صلاحیتوں کا مظاہرہ کیا، یہاں تک کہ بڑے پیمانے پر بھی بہترین کارکردگی کو برقرار رکھا۔ اگرچہ MFA-KR نے قدرے کم کارکردگی کا مظاہرہ کیا، لیکن اس کا اسکیلنگ رجحان MHA کے مطابق تھا۔ MFA اور MFA-KR کے میموری بچانے کے فوائد ماڈل کے سائز کے ساتھ بڑھتے رہے، MFA نے 87.5 فیصد میموری کی بچت حاصل کی اور MFA-KR نے سب سے بڑے پیمانے پر میموری کے استعمال کو 6.25 فیصد تک کم کیا۔

ابلیشن اسٹڈیز

ابلیشن اسٹڈیز نے MFA اور MFA-KR کی تاثیر کی توثیق کی۔ ان کے کارکردگی کے فوائد کو مختلف مرکزی دھارے کے پوزیشنل انکوڈنگ طریقوں میں بھی تصدیق کی گئی۔

آؤٹ لک

MFA ایک سادہ ڈیزائن کے ساتھ اہم بہتری پیش کرتا ہے، مؤثر طریقے سے LLM استدلال میں میموری کی رکاوٹ کو بغیر کسی اضافی انجینئرنگ کی پیچیدگی کے حل کرتا ہے۔ یہ موجودہ ٹرانسفارمر ایکو سسٹم میں بغیر کسی رکاوٹ کے ضم ہوتا ہے، مختلف منظرناموں میں LLMs کی درخواست کو تیز کرتا ہے۔