معماری BLT متا: حذف توکن‌سازی

مقدمه

متا به همراه همکارانش از دانشگاه شیکاگو و دیگر موسسات، اخیراً مقاله پیشگامانه‌ای با عنوان "Byte Latent Transformer: Patches Scale Better Than Tokens" منتشر کرده است. این تحقیق بحث‌های قابل توجهی را به خصوص در پلتفرم‌هایی مانند Hacker News برانگیخته است. ایده اصلی حول یک رویکرد جدید به مدل‌های زبان است که به طور بالقوه می‌تواند جایگزین فرآیند توکن‌سازی سنتی شود. هیجان و اشتیاق زیادی در میان محققان برای عبور از توکن‌سازها وجود دارد. با این حال، نگرانی‌هایی نیز در مورد امکان‌پذیری ادغام این فناوری جدید وجود دارد، با توجه به اینکه توکن‌سازی اساس بسیاری از مدل‌های موجود را تشکیل می‌دهد.

مشکل توکن‌سازی

مدل‌های زبان سنتی برای پیش پردازش داده‌ها به توکن‌سازی متکی هستند. با این حال، این روش محدودیت‌های متعددی دارد. این محدودیت‌ها عبارتند از:

اندازه واژگان ثابت، که ممکن است برای همه زبان‌ها یا زمینه‌ها کافی نباشد.
نارسایی در پردازش داده‌های چند زبانه یا نویزی.
ایجاد سوگیری به دلیل روش‌های فشرده‌سازی.

ترانسفورمر نهفته بایت (BLT)

این تحقیق، ترانسفورمر نهفته بایت (BLT) را به عنوان راه حلی معرفی می‌کند که رویکرد سنتی توکن‌سازی را به چالش می‌کشد. BLT به جای کار با توکن‌ها، مستقیماً جریان‌های خام بایت را مدل‌سازی می‌کند. این مدل به صورت پویا این بایت‌ها را بر اساس آنتروپی آنها در پچ‌ها گروه‌بندی می‌کند و کارایی محاسباتی را بهینه می‌کند. این بدان معناست که BLT می‌تواند مستقیماً از داده‌های بایت اصلی بدون تکیه بر واژگان استاتیک یاد بگیرد. BLT برای مدیریت موثرتر ورودی‌های متنوع و نویزی طراحی شده است.

ویژگی‌های کلیدی BLT عبارتند از:

پچ‌بندی مبتنی بر آنتروپی: BLT به صورت پویا بایت‌ها را بر اساس پیچیدگی اطلاعاتی آنها در پچ‌ها گروه‌بندی می‌کند. این رویکرد منابع محاسباتی بیشتری را به مناطق با آنتروپی بالا (پیچیده) اختصاص می‌دهد و منابع را در مناطق با آنتروپی پایین صرفه جویی می‌کند.
مقیاس‌پذیری کارآمد: BLT اندازه پچ‌ها را بهینه می‌کند و از مدل‌های محلی سبک وزن استفاده می‌کند و عملکردی قابل مقایسه یا بهتر از مدل‌های مبتنی بر توکن مانند LLaMA به دست می‌آورد. همچنین هزینه‌های محاسباتی را تا 50 درصد در طول استنتاج کاهش می‌دهد.
استحکام و انعطاف‌پذیری: BLT عملکرد استثنایی در کارهایی که نیاز به درک سطح کاراکتر، مدیریت ورودی‌های نویزی یا تعمیم به داده‌های دنباله‌دار دارند، نشان می‌دهد و از معماری‌های مبتنی بر توکن در بسیاری از معیارهای سنجش پیشی می‌گیرد.

معماری BLT

معماری BLT از موارد زیر تشکیل شده است:

یک مدل زبان خودبرگشتی جهانی بزرگ که بر روی نمایش‌های پچ عمل می‌کند.
دو مدل محلی کوچکتر که دنباله‌های بایت را به پچ‌ها کدگذاری می‌کنند و نمایش‌های پچ را به بایت‌ها رمزگشایی می‌کنند.

مدل ترانسفورمر نهفته جهانی

ترانسفورمر نهفته جهانی یک مدل خودبرگشتی است که نمایش‌های پچ ورودی را به نمایش‌های پچ خروجی نگاشت می‌کند. از یک ماسک توجه علّی بلوکی استفاده می‌کند.

رمزگذار محلی

مدل رمزگذار محلی یک مدل مبتنی بر ترانسفورمر سبک وزن است که به طور کارآمد دنباله‌های بایت ورودی را به نمایش‌های پچ رسا نگاشت می‌کند. این مدل دارای لایه‌های توجه متقابل پس از هر لایه ترانسفورمر است و نمایش‌های بایت را در نمایش‌های پچ جمع می‌کند.

تعبیه بایت: دنباله‌های بایت ورودی با استفاده از یک ماتریس تعبیه می‌شوند.
لایه‌های ترانسفورمر: مجموعه‌ای از لایه‌های متناوب ترانسفورمر و توجه متقابل، تعبیه‌ها را به نمایش‌های پچ تبدیل می‌کنند. این شامل یک ماسک توجه علّی بلوکی محلی است.

رمزگشای محلی

رمزگشای محلی یکی دیگر از مدل‌های مبتنی بر ترانسفورمر سبک وزن است. این مدل نمایش‌های پچ جهانی را به بایت‌های اصلی رمزگشایی می‌کند. از یک سری لایه‌های توجه متقابل و ترانسفورمر استفاده می‌کند. این امر امکان پیش‌بینی دنباله‌های بایت اصلی بر اساس بایت‌های رمزگشایی شده قبلی را فراهم می‌کند.

روندهای مقیاس‌پذیری

این تحقیق روندهای مقیاس‌پذیری مدل‌های سطح بایت را برای اطلاع‌رسانی بیشتر در مورد توسعه مدل BLT بررسی می‌کند. این شامل موارد زیر است:

مقایسه روندهای طرح‌های آموزشی بهینه از نظر محاسباتی.
آموزش مدل‌های پارامتری 8B روی مجموعه‌های داده بزرگ و ارزیابی عملکرد در وظایف پایین دستی.
اندازه‌گیری روندهای مقیاس‌پذیری در تنظیمات کنترل شده با هزینه استنتاج.

روندهای مقیاس‌پذیری بهینه از نظر محاسباتی مطابق با پارامتر

با استفاده از مجموعه داده Llama 2، محققان مدل‌های BPE و BLT مختلف با اندازه‌های مختلف (1B تا 8B پارامتر) را با تنظیمات بهینه از نظر محاسباتی آموزش دادند. فلاپ‌های آموزشی در برابر عملکرد مدل‌سازی زبان ترسیم شدند. مدل‌های BLT یا با مدل‌های BPE مطابقت داشتند یا از آنها بهتر عمل کردند و این روند با افزایش اندازه مدل‌ها و فلاپ‌ها ادامه یافت.

مجموعه داده BLT-1T

یک مدل BLT پارامتری 8B روی یک مجموعه داده با کیفیت بالا و بزرگتر، BLT-1T، آموزش داده شد. نتایج نشان داد که مدل BLT-Entropy در 4 مورد از 7 وظیفه از مدل Llama 3 بهتر عمل کرد. این بهبود به دلیل استفاده بهتر از محاسبات آموزشی با استفاده از پچ‌های پویا و مدل‌سازی اطلاعات سطح بایت به جای توکن‌ها است.

مقیاس‌پذیری پچ

این تحقیق تأکید می‌کند که پچ‌ها آسان‌تر از توکن‌ها مقیاس می‌شوند. مطالعه بر روی مقیاس‌پذیری طول پچ نشان می‌دهد که معماری BLT مبتنی بر پچ می‌تواند با افزایش اندازه پچ و مدل، به روندهای مقیاس‌پذیری بهتری دست یابد.

استحکام از طریق مدل‌سازی بایت

وظایف سطح کاراکتر

مدل BLT استحکام برتری را در تست‌های نویزی HellaSwag نشان می‌دهد و به طور متوسط 8 درصد از مدل‌های مبتنی بر توکن پیشی می‌گیرد. حتی از Llama 3.1 که روی مجموعه‌های داده بزرگ‌تر آموزش داده شده بود نیز بهتر عمل کرد.

زبان‌های کم‌منبع

BLT در جفت‌های زبانی محبوب عملکردی قابل مقایسه یا کمی بهتر از Llama 3 دارد. با این حال، BLT به طور قابل توجهی از Llama 3 در جفت‌های زبانی کم‌منبع پیشی می‌گیرد و اثربخشی مدل‌سازی بایت را در تعمیم به دنباله‌های بایت دنباله‌دار نشان می‌دهد.

از Llama 3 به BLT

نویسندگان یک گردش کار را بررسی کردند که در آن مدل‌های BLT می‌توانند از مدل‌های از پیش آموزش داده شده مبتنی بر توکن استفاده کنند. این کار با مقداردهی اولیه پارامترهای توکن‌ساز جهانی BLT با یک Llama 3.1 از پیش آموزش داده شده انجام شد. نتایج نشان داد که BLT که با Llama 3.1 مقداردهی اولیه شده بود، هم از Llama 3 و هم از مدل‌های پایه BLT که با همان تعداد فلاپ آموزش داده شده بودند، بهتر عمل کرد.