- Published on
میٹا کا بی ایل ٹی آرکیٹیکچر ٹوکنائزیشن کو ختم کرتا ہے
میٹا کا بی ایل ٹی آرکیٹیکچر ٹوکنائزیشن کو ختم کرتا ہے
میٹا، یونیورسٹی آف شکاگو اور دیگر اداروں کے تعاون سے، نے حال ہی میں ایک اہم مقالہ شائع کیا ہے جس کا عنوان ہے "بائٹ لیٹنٹ ٹرانسفارمر: پیچز ٹوکنز سے بہتر اسکیل کرتے ہیں۔" اس تحقیق نے خاص طور پر ہیکر نیوز جیسے پلیٹ فارمز پر کافی بحث و مباحثہ کو جنم دیا ہے۔ بنیادی تصور لسانی ماڈلز کے لیے ایک نئے نقطہ نظر کے گرد گھومتا ہے جو روایتی ٹوکنائزیشن کے عمل کو ممکنہ طور پر تبدیل کر سکتا ہے۔ جوش و خروش واضح ہے، کچھ محققین ٹوکنائزرز سے آگے بڑھنے کے لیے بے چین ہیں۔ تاہم، اس نئی ٹیکنالوجی کو ضم کرنے کی فزیبلٹی کے بارے میں بھی تشویش پائی جاتی ہے، اس بات کو مدنظر رکھتے ہوئے کہ ٹوکنائزیشن بہت سے موجودہ ماڈلز کی بنیاد بناتا ہے۔
ٹوکنائزیشن کے ساتھ مسئلہ
روایتی لسانی ماڈلز ڈیٹا کو پری پروسیس کرنے کے لیے ٹوکنائزیشن پر انحصار کرتے ہیں۔ تاہم، اس طریقہ کار میں کئی خامیاں ہیں۔ ان میں شامل ہیں:
- ایک مقررہ ذخیرہ الفاظ کا سائز، جو تمام زبانوں یا سیاق و سباق کے لیے مناسب نہیں ہو سکتا۔
- کثیر لسانی یا شور زدہ ڈیٹا کی پروسیسنگ میں ناکاریاں۔
- کمپریشن ہیورسٹکس کی وجہ سے تعصبات کا تعارف۔
بائٹ لیٹنٹ ٹرانسفارمر (BLT)
تحقیق بائٹ لیٹنٹ ٹرانسفارمر (BLT) کو ایک حل کے طور پر پیش کرتی ہے جو روایتی ٹوکنائزیشن کے نقطہ نظر کو چیلنج کرتا ہے۔ ٹوکنز کے ساتھ کام کرنے کے بجائے، BLT براہ راست خام بائٹ سٹریمز کی ماڈلنگ کرتا ہے۔ یہ متحرک طور پر ان بائٹس کو ان کی انٹروپی کی بنیاد پر پیچز میں گروپ کرتا ہے، کمپیوٹیشنل کارکردگی کو بہتر بناتا ہے۔ اس کا مطلب ہے کہ BLT جامد ذخیرہ الفاظ پر انحصار کیے بغیر اصل بائٹ ڈیٹا سے براہ راست سیکھ سکتا ہے۔ BLT کو متنوع اور شور زدہ ان پٹس کو زیادہ مؤثر طریقے سے ہینڈل کرنے کے لیے ڈیزائن کیا گیا ہے۔
BLT کی اہم خصوصیات میں شامل ہیں:
- انٹروپی پر مبنی پیچنگ: BLT متحرک طور پر بائٹس کو ان کی معلومات کی پیچیدگی کی بنیاد پر پیچز میں گروپ کرتا ہے۔ یہ نقطہ نظر زیادہ انٹروپی (پیچیدہ) علاقوں میں زیادہ کمپیوٹیشنل وسائل مختص کرتا ہے اور کم انٹروپی والے علاقوں میں وسائل کو بچاتا ہے۔
- مؤثر اسکیلنگ: BLT پیچ کے سائز کو بہتر بناتا ہے اور ہلکے وزن والے مقامی ماڈلز کا استعمال کرتا ہے، LLaMA جیسے ٹوکن پر مبنی ماڈلز کے مقابلے میں کارکردگی کے قابل یا بہتر حاصل کرتا ہے۔ یہ انفرنس کے دوران کمپیوٹیشنل لاگت کو 50% تک کم کرتا ہے۔
- مضبوطی اور لچک: BLT ان کاموں میں غیر معمولی کارکردگی کا مظاہرہ کرتا ہے جن کے لیے کریکٹر لیول کی سمجھ، شور زدہ ان پٹس کو ہینڈل کرنے یا طویل دم والے ڈیٹا کو عام کرنے کی ضرورت ہوتی ہے، بہت سے بینچ مارکس میں ٹوکن پر مبنی آرکیٹیکچرز کو پیچھے چھوڑ دیتا ہے۔
BLT آرکیٹیکچر
BLT آرکیٹیکچر پر مشتمل ہے:
- ایک بڑا عالمی آٹوریگریسو لینگویج ماڈل جو پیچ کی نمائندگیوں پر کام کرتا ہے۔
- دو چھوٹے مقامی ماڈلز جو بائٹ سیکوئنس کو پیچ میں انکوڈ کرتے ہیں اور پیچ کی نمائندگیوں کو واپس بائٹس میں ڈی کوڈ کرتے ہیں۔
گلوبل لیٹنٹ ٹرانسفارمر ماڈل
گلوبل لیٹنٹ ٹرانسفارمر ایک آٹوریگریسو ماڈل ہے جو ان پٹ پیچ کی نمائندگیوں کو آؤٹ پٹ پیچ کی نمائندگیوں میں نقشہ کرتا ہے۔ یہ بلاک کازول اٹینشن ماسک کا استعمال کرتا ہے۔
مقامی انکوڈر
مقامی انکوڈر ماڈل ایک ہلکا پھلکا ٹرانسفارمر پر مبنی ماڈل ہے جو ان پٹ بائٹ سیکوئنس کو مؤثر طریقے سے اظہار خیال کرنے والے پیچ کی نمائندگیوں میں نقشہ کرتا ہے۔ اس میں ہر ٹرانسفارمر پرت کے بعد کراس اٹینشن پرتیں ہوتی ہیں، بائٹ کی نمائندگیوں کو پیچ کی نمائندگیوں میں پول کرتی ہیں۔
- بائٹ ایمبیڈنگ: ان پٹ بائٹ سیکوئنس کو میٹرکس کا استعمال کرتے ہوئے ایمبیڈ کیا جاتا ہے۔
- ٹرانسفارمر پرتیں: متبادل ٹرانسفارمر اور کراس اٹینشن پرتوں کا ایک سلسلہ ایمبیڈنگز کو پیچ کی نمائندگیوں میں تبدیل کرتا ہے۔ اس میں ایک مقامی بلاک کازول اٹینشن ماسک شامل ہے۔
مقامی ڈی کوڈر
مقامی ڈی کوڈر ایک اور ہلکا پھلکا ٹرانسفارمر پر مبنی ماڈل ہے۔ یہ عالمی پیچ کی نمائندگیوں کو اصل بائٹس میں ڈی کوڈ کرتا ہے۔ یہ کراس اٹینشن اور ٹرانسفارمر پرتوں کا ایک سلسلہ استعمال کرتا ہے۔ یہ پہلے ڈی کوڈ شدہ بائٹس کی بنیاد پر اصل بائٹ سیکوئنس کی پیش گوئی کرنے کی اجازت دیتا ہے۔
اسکیلنگ ٹرینڈز
تحقیق بائٹ لیول ماڈلز کے اسکیلنگ ٹرینڈز کو مزید BLT ماڈل کی ترقی کے لیے آگاہ کرنے کے لیے دریافت کرتی ہے۔ اس میں شامل ہیں:
- کمپیوٹیشنل طور پر بہترین تربیتی اسکیموں میں رجحانات کا موازنہ کرنا۔
- بڑے ڈیٹا سیٹس پر 8B پیرامیٹر ماڈلز کی تربیت اور ڈاؤن اسٹریم کاموں پر کارکردگی کا جائزہ لینا۔
- انفرنس لاگت سے کنٹرول شدہ ترتیبات میں اسکیلنگ ٹرینڈز کی پیمائش کرنا۔
پیرامیٹر سے مماثل کمپیوٹیشنل طور پر بہترین اسکیلنگ ٹرینڈز
Llama 2 ڈیٹا سیٹ کا استعمال کرتے ہوئے، محققین نے مختلف سائز (1B سے 8B پیرامیٹرز) کے BPE اور BLT ماڈلز کو کمپیوٹیشنل طور پر بہترین ترتیبات کے ساتھ تربیت دی۔ تربیتی فلاپس کو لینگویج ماڈلنگ کی کارکردگی کے خلاف پلاٹ کیا گیا۔ BLT ماڈلز یا تو BPE ماڈلز سے مماثل یا بہتر کارکردگی کا مظاہرہ کرتے ہیں، اور یہ رجحان ماڈل کے سائز اور فلاپس میں اضافے کے ساتھ برقرار رہا۔
BLT-1T ڈیٹا سیٹ
ایک 8B پیرامیٹر BLT ماڈل کو ایک بڑے اعلیٰ معیار کے ڈیٹا سیٹ، BLT-1T پر تربیت دی گئی۔ نتائج سے پتہ چلتا ہے کہ BLT-انٹروپی ماڈل نے 7 میں سے 4 کاموں پر Llama 3 ماڈل کو پیچھے چھوڑ دیا۔ یہ بہتری متحرک پیچز کا استعمال کرتے ہوئے اور ٹوکنز کے بجائے بائٹ لیول کی معلومات کی ماڈلنگ کے ذریعے تربیتی کمپیوٹیشن کے بہتر استعمال سے منسوب ہے۔
پیچ اسکیلنگ
تحقیق اس بات پر روشنی ڈالتی ہے کہ پیچ ٹوکنز سے زیادہ آسانی سے اسکیل کرتے ہیں۔ پیچ کی لمبائی کی اسکیلنگ پر کی گئی تحقیق سے پتہ چلتا ہے کہ پیچ پر مبنی BLT آرکیٹیکچر پیچ اور ماڈل دونوں کے سائز میں اضافہ کرکے بہتر اسکیلنگ ٹرینڈز حاصل کر سکتا ہے۔
بائٹ ماڈلنگ کے ذریعے مضبوطی
کریکٹر لیول کے کام
BLT ماڈل شور زدہ ہیلا سویگ ٹیسٹوں میں اعلیٰ مضبوطی کا مظاہرہ کرتا ہے، ٹوکنائزر پر مبنی ماڈلز سے اوسطاً 8 فیصد پوائنٹس سے تجاوز کرتا ہے۔ یہاں تک کہ اس نے بڑے ڈیٹا سیٹس پر تربیت یافتہ Llama 3.1 ماڈلز کو بھی پیچھے چھوڑ دیا۔
کم وسائل والی زبانیں
BLT مقبول لسانی جوڑوں میں Llama 3 کے مقابلے میں قابل موازنہ یا قدرے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ تاہم، یہ کم وسائل والے لسانی جوڑوں میں Llama 3 سے نمایاں طور پر آگے نکل جاتا ہے، جو طویل دم والے بائٹ سیکوئنس کو عام کرنے میں بائٹ ماڈلنگ کی تاثیر کو ظاہر کرتا ہے۔
Llama 3 سے BLT تک
مصنفین نے ایک ورک فلو کی تحقیقات کی جہاں BLT ماڈلز پہلے سے تربیت یافتہ ٹوکنائزر پر مبنی ماڈلز استعمال کر سکتے ہیں۔ یہ BLT کے عالمی ٹوکنائزر پیرامیٹرز کو پہلے سے تربیت یافتہ Llama 3.1 سے شروع کرکے کیا گیا تھا۔ نتائج سے پتہ چلتا ہے کہ Llama 3.1 کے ساتھ شروع کیا گیا BLT نے Llama 3 اور بیس لائن BLT دونوں ماڈلز سے بہتر کارکردگی کا مظاہرہ کیا جنہیں فلاپس کی اتنی ہی تعداد کے ساتھ تربیت دی گئی تھی۔