Published on

گوگل کا ٹائٹن آرکیٹیکچر ٹرانسفارمر میموری کی رکاوٹ کو توڑتا ہے

مصنفین
  • avatar
    نام
    Ajax
    Twitter

ٹائٹن کا تعارف: گوگل کا ایک نیا آرکیٹیکچر

ٹیکنالوجی کی دنیا میں گوگل کی جانب سے ٹائٹن نامی ایک نئے آرکیٹیکچر کا چرچا ہے۔ یہ خاص طور پر میموری کو سنبھالنے کے معاملے میں ٹرانسفارمر ماڈلز کی حدود کو چیلنج کرنے کے لیے ڈیزائن کیا گیا ہے۔ اس نئے آرکیٹیکچر کو ٹرانسفارمر کے ممکنہ جانشین کے طور پر کافی توجہ مل رہی ہے، خاص طور پر گوگل کے اندر ایک ٹیم کی جانب سے اس کی تیاری کو دیکھتے ہوئے۔

موجودہ ماڈلز میں میموری کا چیلنج

روایتی ماڈلز جیسے LSTM اور ٹرانسفارمر، اگرچہ اختراعی ہیں، لیکن انسانی نما میموری کی نقل کرنے میں چیلنجز کا سامنا کرتے ہیں۔ ان چیلنجز میں شامل ہیں:

  • محدود صلاحیت: ڈیٹا کو اکثر ایک مقررہ سائز کی پوشیدہ حالت میں کمپریس کیا جاتا ہے، جس سے معلومات کی مقدار محدود ہو جاتی ہے جسے برقرار رکھا جا سکتا ہے۔
  • حسابی اوورہیڈ: اگرچہ طویل فاصلے پر انحصار کو پکڑنے کی صلاحیت رکھتے ہیں، لیکن حسابی لاگت ترتیب کی لمبائی کے ساتھ مربع طور پر بڑھ جاتی ہے، جس سے یہ بہت طویل سلسلوں کے لیے غیر موثر ہو جاتا ہے۔
  • تربیتی ڈیٹا پر زیادہ انحصار: محض تربیتی ڈیٹا کو یاد کرنا ہمیشہ حقیقی دنیا کی ایپلی کیشن میں مدد نہیں کرتا، جہاں ٹیسٹ ڈیٹا تربیتی تقسیم سے باہر ہو سکتا ہے۔

ٹائٹن کا نقطہ نظر: ایک نیورو سے متاثر میموری ماڈیول

ٹائٹن ٹیم نے ایک مختلف نقطہ نظر اختیار کیا ہے، جس میں معلومات کو نیورل نیٹ ورک کے پیرامیٹرز میں انکوڈ کرنے کی کوشش کی گئی ہے۔ انہوں نے ایک آن لائن میٹا ماڈل تیار کیا ہے جو ٹیسٹنگ کے دوران مخصوص ڈیٹا کو یاد رکھنے اور بھول جانے کا طریقہ سیکھنے کے لیے ڈیزائن کیا گیا ہے۔ یہ ماڈل نیورو سائیکولوجیکل اصولوں سے متاثر ہے، جس میں درج ذیل اہم عناصر شامل ہیں:

  • حیرت بطور محرک: غیر متوقع واقعات زیادہ آسانی سے یاد رہتے ہیں۔ "حیرت" کی پیمائش میموری ماڈیول میں ان پٹ کے گریڈینٹ سے کی جاتی ہے۔ گریڈینٹ جتنا بڑا ہوگا، ان پٹ اتنا ہی غیر متوقع ہوگا۔
  • رفتار اور بھولنے کے طریقہ کار: ایک رفتار کا طریقہ کار قلیل مدتی حیرتوں کو طویل مدتی میموری میں جمع کرتا ہے، جبکہ ایک بھولنے کا طریقہ کار پرانی یادوں کو مٹا دیتا ہے، جس سے میموری اوور فلو کو روکا جا سکتا ہے۔
  • ملٹی لیئر پرسیپٹرون (MLP) پر مبنی میموری: میموری ماڈیول متعدد MLP تہوں پر مشتمل ہے، جس سے یہ ڈیٹا کے گہرے خلاصوں کو ذخیرہ کرنے کی اجازت دیتا ہے، جو اسے روایتی میٹرکس پر مبنی یادوں سے زیادہ طاقتور بناتا ہے۔

یہ آن لائن میٹا لرننگ نقطہ نظر ماڈل کو محض تربیتی ڈیٹا کو یاد کرنے کی بجائے نئے ڈیٹا کے مطابق ڈھالنا سیکھنے پر توجہ مرکوز کرنے میں مدد کرتا ہے۔ ماڈیول کو متوازی کمپیوٹیشن کے لیے بھی ڈیزائن کیا گیا ہے، جس سے اس کی کارکردگی میں اضافہ ہوتا ہے۔

گہری سیکھنے کے فن تعمیر میں میموری ماڈیول کو ضم کرنا

ٹائٹنز تحقیقی ٹیم نے اپنے میموری ماڈیول کو گہری سیکھنے کے فن تعمیر میں شامل کرنے کے لیے تین تغیرات تجویز کیے:

  1. MAC (میموری بطور سیاق و سباق): یہ طریقہ طویل مدتی اور مستقل میموری (جو ٹاسک نالج کو انکوڈ کرتی ہے) کو سیاق و سباق کے طور پر جوڑتا ہے جو توجہ کے طریقہ کار کے لیے ان پٹ ہے۔
  2. MAG (میموری بطور گیٹ): یہ نقطہ نظر دو شاخوں میں سلائیڈنگ ونڈو توجہ کے طریقہ کار کے ساتھ میموری ماڈیول کے گیٹڈ فیوژن کا استعمال کرتا ہے۔
  3. MAL (میموری بطور پرت): یہاں، میموری ماڈیول کو ایک آزاد پرت کے طور پر نافذ کیا گیا ہے جو توجہ کے طریقہ کار کو کھلانے سے پہلے تاریخی معلومات کو کمپریس کرتا ہے۔

ٹیم نے پایا کہ ہر تغیر کی اپنی طاقتیں اور کمزوریاں ہیں۔

ٹائٹنز کی کارکردگی اور فوائد

ٹائٹنز نے لسانیاتی ماڈلنگ، عام فہم استدلال اور ٹائم سیریز کی پیش گوئی سمیت مختلف کاموں میں بہترین کارکردگی کا مظاہرہ کیا ہے۔ اس نے ٹرانسفارمر اور ممبا جیسے جدید ترین ماڈلز کو پیچھے چھوڑ دیا ہے۔ خاص طور پر، طویل مدتی میموری ماڈیول (LMM) نے خود کئی کاموں میں بیس لائن ماڈلز سے بہتر کارکردگی کا مظاہرہ کیا ہے، جو قلیل مدتی میموری (توجہ) کے بغیر اپنی آزاد سیکھنے کی صلاحیتوں کو ظاہر کرتا ہے۔

ایک "گھاس کے ڈھیر میں سوئی" ٹیسٹ میں جو طویل متن میں باریک بینی سے سراغ لگانے کے لیے ڈیزائن کیا گیا ہے، ٹائٹنز نے تقریباً 90% درستگی برقرار رکھی یہاں تک کہ ترتیب کی لمبائی 2k سے 16k تک بڑھ گئی۔ ٹیم بتاتی ہے کہ معیاری ٹیسٹ طویل متن کو سنبھالنے میں ٹائٹنز کے فوائد کو مکمل طور پر ظاہر نہیں کرتے ہیں۔ ٹائٹنز نے GPT4، ممبا اور یہاں تک کہ Llama3.1 with RAG جیسے ماڈلز کو بھی ایک ایسے کام میں پیچھے چھوڑ دیا جس کے لیے انتہائی طویل دستاویزات میں پھیلے حقائق سے استنباط کی ضرورت تھی۔

ٹائٹنز نے مخصوص شعبوں جیسے ٹائم سیریز کی پیش گوئی اور DNA ترتیب ماڈلنگ میں بھی متاثر کن کارکردگی کا مظاہرہ کیا ہے۔

ٹائٹنز کے پیچھے ٹیم

تحقیق گوگل ریسرچ NYC الگورتھم اور آپٹیمائزیشن گروپ کی ایک ٹیم نے کی، جو فی الحال گوگل ڈیپ مائنڈ کا حصہ نہیں ہے۔ علی بہروز، ایک کارنیل یونیورسٹی کے انٹرن، مقالے کے پہلے مصنف ہیں۔ زونگ پیلِن، جو چنگھوا یونیورسٹی کے سابق طالب علم اور کولمبیا یونیورسٹی سے پی ایچ ڈی گریجویٹ ہیں، 2021 سے گوگل میں ریسرچ سائنسدان ہیں۔ وہ ایک انڈر گریجویٹ طالب علم کے طور پر STOC 2016 میں پہلا مصنف مقالہ شائع کرنے کے لیے مشہور ہیں۔ وہاب میررکنی، گوگل فیلو اور VP، ٹیم کی قیادت کرتے ہیں۔ ٹیم نے پائٹورچ اور جیکس کا استعمال کرتے ہوئے ٹائٹنز کو تیار کیا اور جلد ہی تربیت اور تشخیص کے لیے کوڈ جاری کرنے کا ارادہ رکھتی ہے۔