- Published on
معماری BLT متا: حذف توکنسازی
مقدمه
متا به همراه همکارانش از دانشگاه شیکاگو و دیگر موسسات، اخیراً مقاله پیشگامانهای با عنوان "Byte Latent Transformer: Patches Scale Better Than Tokens" منتشر کرده است. این تحقیق بحثهای قابل توجهی را به خصوص در پلتفرمهایی مانند Hacker News برانگیخته است. ایده اصلی حول یک رویکرد جدید به مدلهای زبان است که به طور بالقوه میتواند جایگزین فرآیند توکنسازی سنتی شود. هیجان و اشتیاق زیادی در میان محققان برای عبور از توکنسازها وجود دارد. با این حال، نگرانیهایی نیز در مورد امکانپذیری ادغام این فناوری جدید وجود دارد، با توجه به اینکه توکنسازی اساس بسیاری از مدلهای موجود را تشکیل میدهد.
مشکل توکنسازی
مدلهای زبان سنتی برای پیش پردازش دادهها به توکنسازی متکی هستند. با این حال، این روش محدودیتهای متعددی دارد. این محدودیتها عبارتند از:
- اندازه واژگان ثابت، که ممکن است برای همه زبانها یا زمینهها کافی نباشد.
- نارسایی در پردازش دادههای چند زبانه یا نویزی.
- ایجاد سوگیری به دلیل روشهای فشردهسازی.
ترانسفورمر نهفته بایت (BLT)
این تحقیق، ترانسفورمر نهفته بایت (BLT) را به عنوان راه حلی معرفی میکند که رویکرد سنتی توکنسازی را به چالش میکشد. BLT به جای کار با توکنها، مستقیماً جریانهای خام بایت را مدلسازی میکند. این مدل به صورت پویا این بایتها را بر اساس آنتروپی آنها در پچها گروهبندی میکند و کارایی محاسباتی را بهینه میکند. این بدان معناست که BLT میتواند مستقیماً از دادههای بایت اصلی بدون تکیه بر واژگان استاتیک یاد بگیرد. BLT برای مدیریت موثرتر ورودیهای متنوع و نویزی طراحی شده است.
ویژگیهای کلیدی BLT عبارتند از:
- پچبندی مبتنی بر آنتروپی: BLT به صورت پویا بایتها را بر اساس پیچیدگی اطلاعاتی آنها در پچها گروهبندی میکند. این رویکرد منابع محاسباتی بیشتری را به مناطق با آنتروپی بالا (پیچیده) اختصاص میدهد و منابع را در مناطق با آنتروپی پایین صرفه جویی میکند.
- مقیاسپذیری کارآمد: BLT اندازه پچها را بهینه میکند و از مدلهای محلی سبک وزن استفاده میکند و عملکردی قابل مقایسه یا بهتر از مدلهای مبتنی بر توکن مانند LLaMA به دست میآورد. همچنین هزینههای محاسباتی را تا 50 درصد در طول استنتاج کاهش میدهد.
- استحکام و انعطافپذیری: BLT عملکرد استثنایی در کارهایی که نیاز به درک سطح کاراکتر، مدیریت ورودیهای نویزی یا تعمیم به دادههای دنبالهدار دارند، نشان میدهد و از معماریهای مبتنی بر توکن در بسیاری از معیارهای سنجش پیشی میگیرد.
معماری BLT
معماری BLT از موارد زیر تشکیل شده است:
- یک مدل زبان خودبرگشتی جهانی بزرگ که بر روی نمایشهای پچ عمل میکند.
- دو مدل محلی کوچکتر که دنبالههای بایت را به پچها کدگذاری میکنند و نمایشهای پچ را به بایتها رمزگشایی میکنند.
مدل ترانسفورمر نهفته جهانی
ترانسفورمر نهفته جهانی یک مدل خودبرگشتی است که نمایشهای پچ ورودی را به نمایشهای پچ خروجی نگاشت میکند. از یک ماسک توجه علّی بلوکی استفاده میکند.
رمزگذار محلی
مدل رمزگذار محلی یک مدل مبتنی بر ترانسفورمر سبک وزن است که به طور کارآمد دنبالههای بایت ورودی را به نمایشهای پچ رسا نگاشت میکند. این مدل دارای لایههای توجه متقابل پس از هر لایه ترانسفورمر است و نمایشهای بایت را در نمایشهای پچ جمع میکند.
- تعبیه بایت: دنبالههای بایت ورودی با استفاده از یک ماتریس تعبیه میشوند.
- لایههای ترانسفورمر: مجموعهای از لایههای متناوب ترانسفورمر و توجه متقابل، تعبیهها را به نمایشهای پچ تبدیل میکنند. این شامل یک ماسک توجه علّی بلوکی محلی است.
رمزگشای محلی
رمزگشای محلی یکی دیگر از مدلهای مبتنی بر ترانسفورمر سبک وزن است. این مدل نمایشهای پچ جهانی را به بایتهای اصلی رمزگشایی میکند. از یک سری لایههای توجه متقابل و ترانسفورمر استفاده میکند. این امر امکان پیشبینی دنبالههای بایت اصلی بر اساس بایتهای رمزگشایی شده قبلی را فراهم میکند.
روندهای مقیاسپذیری
این تحقیق روندهای مقیاسپذیری مدلهای سطح بایت را برای اطلاعرسانی بیشتر در مورد توسعه مدل BLT بررسی میکند. این شامل موارد زیر است:
- مقایسه روندهای طرحهای آموزشی بهینه از نظر محاسباتی.
- آموزش مدلهای پارامتری 8B روی مجموعههای داده بزرگ و ارزیابی عملکرد در وظایف پایین دستی.
- اندازهگیری روندهای مقیاسپذیری در تنظیمات کنترل شده با هزینه استنتاج.
روندهای مقیاسپذیری بهینه از نظر محاسباتی مطابق با پارامتر
با استفاده از مجموعه داده Llama 2، محققان مدلهای BPE و BLT مختلف با اندازههای مختلف (1B تا 8B پارامتر) را با تنظیمات بهینه از نظر محاسباتی آموزش دادند. فلاپهای آموزشی در برابر عملکرد مدلسازی زبان ترسیم شدند. مدلهای BLT یا با مدلهای BPE مطابقت داشتند یا از آنها بهتر عمل کردند و این روند با افزایش اندازه مدلها و فلاپها ادامه یافت.
مجموعه داده BLT-1T
یک مدل BLT پارامتری 8B روی یک مجموعه داده با کیفیت بالا و بزرگتر، BLT-1T، آموزش داده شد. نتایج نشان داد که مدل BLT-Entropy در 4 مورد از 7 وظیفه از مدل Llama 3 بهتر عمل کرد. این بهبود به دلیل استفاده بهتر از محاسبات آموزشی با استفاده از پچهای پویا و مدلسازی اطلاعات سطح بایت به جای توکنها است.
مقیاسپذیری پچ
این تحقیق تأکید میکند که پچها آسانتر از توکنها مقیاس میشوند. مطالعه بر روی مقیاسپذیری طول پچ نشان میدهد که معماری BLT مبتنی بر پچ میتواند با افزایش اندازه پچ و مدل، به روندهای مقیاسپذیری بهتری دست یابد.
استحکام از طریق مدلسازی بایت
وظایف سطح کاراکتر
مدل BLT استحکام برتری را در تستهای نویزی HellaSwag نشان میدهد و به طور متوسط 8 درصد از مدلهای مبتنی بر توکن پیشی میگیرد. حتی از Llama 3.1 که روی مجموعههای داده بزرگتر آموزش داده شده بود نیز بهتر عمل کرد.
زبانهای کممنبع
BLT در جفتهای زبانی محبوب عملکردی قابل مقایسه یا کمی بهتر از Llama 3 دارد. با این حال، BLT به طور قابل توجهی از Llama 3 در جفتهای زبانی کممنبع پیشی میگیرد و اثربخشی مدلسازی بایت را در تعمیم به دنبالههای بایت دنبالهدار نشان میدهد.
از Llama 3 به BLT
نویسندگان یک گردش کار را بررسی کردند که در آن مدلهای BLT میتوانند از مدلهای از پیش آموزش داده شده مبتنی بر توکن استفاده کنند. این کار با مقداردهی اولیه پارامترهای توکنساز جهانی BLT با یک Llama 3.1 از پیش آموزش داده شده انجام شد. نتایج نشان داد که BLT که با Llama 3.1 مقداردهی اولیه شده بود، هم از Llama 3 و هم از مدلهای پایه BLT که با همان تعداد فلاپ آموزش داده شده بودند، بهتر عمل کرد.