Published on

هندسة BLT من ميتا تلغي الترميز: تحول نموذجي في معالجة اللغة

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

مقدمة

نشرت ميتا، بالتعاون مع باحثين من جامعة شيكاغو ومؤسسات أخرى، ورقة بحثية رائدة بعنوان "محول البايت الكامن: الرقع تتوسع بشكل أفضل من الرموز". أثار هذا البحث نقاشًا واسعًا، خاصة على منصات مثل Hacker News. يتمحور المفهوم الأساسي حول نهج جديد لنماذج اللغة يمكن أن يحل محل عملية الترميز التقليدية. الحماس واضح، حيث يعرب بعض الباحثين عن تطلعهم إلى تجاوز أدوات الترميز. ومع ذلك، هناك أيضًا قلق بشأن جدوى دمج هذه التقنية الجديدة، بالنظر إلى أن الترميز يشكل أساس العديد من النماذج الحالية.

مشكلة الترميز

تعتمد نماذج اللغة التقليدية على الترميز لمعالجة البيانات مسبقًا. ومع ذلك، فإن هذه الطريقة لها عدة قيود. وتشمل هذه:

  • حجم مفردات ثابت، قد لا يكون كافيًا لجميع اللغات أو السياقات.
  • أوجه القصور في معالجة البيانات متعددة اللغات أو الصاخبة.
  • إدخال التحيزات بسبب أساليب الضغط التجريبية.

محول البايت الكامن (BLT)

يقدم البحث محول البايت الكامن (BLT) كحل يتحدى نهج الترميز التقليدي. بدلاً من العمل مع الرموز، يقوم BLT بنمذجة تدفقات البايتات الخام مباشرة. يقوم بتجميع هذه البايتات ديناميكيًا في رقع بناءً على إنتروبيتها، مما يحسن الكفاءة الحسابية. هذا يعني أن BLT يمكنه التعلم مباشرة من بيانات البايت الأصلية دون الاعتماد على مفردات ثابتة. تم تصميم BLT للتعامل مع المدخلات المتنوعة والصاخبة بشكل أكثر فعالية.

تشمل الميزات الرئيسية لـ BLT:

  • الترقيع القائم على الإنتروبيا: يقوم BLT بتجميع البايتات ديناميكيًا في رقع بناءً على تعقيد معلوماتها. يخصص هذا النهج المزيد من الموارد الحسابية للمناطق ذات الإنتروبيا العالية (المعقدة) ويوفر الموارد في المناطق ذات الإنتروبيا المنخفضة.
  • التوسع الفعال: يعمل BLT على تحسين أحجام الرقع ويستخدم نماذج محلية خفيفة الوزن، مما يحقق أداءً مشابهًا أو أفضل من النماذج القائمة على الرموز مثل LLaMA. كما أنه يقلل من التكاليف الحسابية بنسبة تصل إلى 50٪ أثناء الاستدلال.
  • المتانة والمرونة: يُظهر BLT أداءً استثنائيًا في المهام التي تتطلب فهمًا على مستوى الحرف، أو التعامل مع المدخلات الصاخبة، أو التعميم على البيانات طويلة الذيل، متجاوزًا الهياكل القائمة على الرموز في العديد من المعايير.

هندسة BLT

تتكون هندسة BLT من:

  1. نموذج لغة انحداري ذاتي عالمي كبير يعمل على تمثيلات الرقع.
  2. نموذجان محليان أصغر يقومان بترميز تسلسلات البايت في رقع وفك ترميز تمثيلات الرقع مرة أخرى إلى بايتات.

نموذج المحول الكامن العالمي

المحول الكامن العالمي هو نموذج انحداري ذاتي يقوم بتعيين تمثيلات الرقعة المدخلة إلى تمثيلات الرقعة الناتجة. يستخدم قناع انتباه سببي كتلة.

المشفر المحلي

نموذج المشفر المحلي هو نموذج خفيف الوزن قائم على المحولات يقوم بتعيين تسلسلات البايت المدخلة بكفاءة إلى تمثيلات رقع معبرة. يحتوي على طبقات انتباه متقاطع بعد كل طبقة محول، ويجمع تمثيلات البايت في تمثيلات الرقع.

  • تضمين البايت: يتم تضمين تسلسلات البايت المدخلة باستخدام مصفوفة.
  • طبقات المحول: تقوم سلسلة من طبقات المحول والانتباه المتقاطع المتناوبة بتحويل التضمينات إلى تمثيلات رقعة. يتضمن ذلك قناع انتباه سببي كتلة محلي.

وحدة فك الترميز المحلية

وحدة فك الترميز المحلية هي نموذج آخر خفيف الوزن قائم على المحولات. يقوم بفك ترميز تمثيلات الرقعة العالمية إلى البايتات الأصلية. يستخدم سلسلة من طبقات الانتباه المتقاطع والمحول. يتيح ذلك التنبؤ بتسلسلات البايت الأصلية بناءً على البايتات التي تم فك ترميزها مسبقًا.

اتجاهات التوسع

يستكشف البحث اتجاهات التوسع للنماذج على مستوى البايت لإبلاغ المزيد من تطوير نموذج BLT. ويشمل ذلك:

  • مقارنة الاتجاهات في مخططات التدريب المثلى من الناحية الحسابية.
  • تدريب نماذج ذات 8 مليارات معلمة على مجموعات بيانات كبيرة وتقييم الأداء في المهام النهائية.
  • قياس اتجاهات التوسع في الإعدادات التي يتم التحكم فيها بتكلفة الاستدلال.

اتجاهات التوسع الأمثل حسابيًا المطابقة للمعلمات

باستخدام مجموعة بيانات Llama 2، قام الباحثون بتدريب نماذج BPE و BLT مختلفة بأحجام مختلفة (1 مليار إلى 8 مليارات معلمة) بإعدادات مثالية حسابيًا. تم رسم عدد عمليات الفلوب التدريبية مقابل أداء نمذجة اللغة. تطابقت نماذج BLT أو تفوقت على نماذج BPE، واستمر هذا الاتجاه مع زيادة أحجام النماذج وعدد عمليات الفلوب.

مجموعة بيانات BLT-1T

تم تدريب نموذج BLT ذو 8 مليارات معلمة على مجموعة بيانات أكبر عالية الجودة، BLT-1T. أظهرت النتائج أن نموذج BLT-Entropy تفوق على نموذج Llama 3 في 4 من أصل 7 مهام. يُعزى هذا التحسن إلى الاستخدام الأفضل للحساب التدريبي باستخدام الرقع الديناميكية ونمذجة المعلومات على مستوى البايت بدلاً من الرموز.

توسيع الرقعة

يسلط البحث الضوء على أن الرقع تتوسع بسهولة أكبر من الرموز. تُظهر الدراسة حول توسيع طول الرقعة أن هندسة BLT القائمة على الرقع يمكن أن تحقق اتجاهات توسع أفضل عن طريق زيادة كل من الرقع وأحجام النماذج.

المتانة من خلال نمذجة البايت

مهام على مستوى الحرف

يُظهر نموذج BLT متانة فائقة في اختبارات HellaSwag الصاخبة، متجاوزًا النماذج القائمة على أدوات الترميز بمتوسط 8 نقاط مئوية. حتى أنه تفوق على نماذج Llama 3.1 المدربة على مجموعات بيانات أكبر.

اللغات ذات الموارد المنخفضة

يؤدي BLT أداءً مشابهًا أو أفضل قليلاً من Llama 3 في أزواج اللغات الشائعة. ومع ذلك، فإنه يتجاوز بشكل كبير Llama 3 في أزواج اللغات ذات الموارد المنخفضة، مما يدل على فعالية نمذجة البايت في التعميم على تسلسلات البايت طويلة الذيل.

من Llama 3 إلى BLT

استكشف المؤلفون سير عمل حيث يمكن لنماذج BLT استخدام النماذج القائمة على أدوات الترميز المدربة مسبقًا. تم ذلك عن طريق تهيئة معلمات أداة الترميز العالمية لـ BLT باستخدام Llama 3.1 المدرب مسبقًا. أظهرت النتائج أن BLT المهيأ باستخدام Llama 3.1 تفوق على كل من Llama 3 ونماذج BLT الأساسية المدربة بنفس عدد عمليات الفلوب.