Published on

بنية تيتان من جوجل تكسر عنق الزجاجة في ذاكرة المحولات

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

تقديم تيتان: بنية جديدة من جوجل

يشهد عالم التكنولوجيا ضجة حول تيتان، وهي بنية جديدة ظهرت من جوجل. تم تصميمها لتحدي قيود نماذج المحولات، خاصة في كيفية تعاملها مع الذاكرة. تكتسب هذه البنية الجديدة اهتمامًا كبيرًا باعتبارها خليفة محتملة للمحولات، خاصة بالنظر إلى تطويرها من قبل فريق داخل جوجل.

تحدي الذاكرة في النماذج الحالية

تواجه النماذج التقليدية مثل LSTM والمحولات، على الرغم من ابتكارها، تحديات في محاكاة الذاكرة الشبيهة بالبشر. تتضمن هذه التحديات:

  • سعة محدودة: غالبًا ما يتم ضغط البيانات في حالة مخفية ذات حجم ثابت، مما يحد من كمية المعلومات التي يمكن الاحتفاظ بها.
  • تكلفة حسابية عالية: على الرغم من القدرة على التقاط التبعيات طويلة المدى، إلا أن التكلفة الحسابية تزداد تربيعيًا مع طول التسلسل، مما يجعلها غير فعالة للتسلسلات الطويلة جدًا.
  • الاعتماد المفرط على بيانات التدريب: إن مجرد حفظ بيانات التدريب لا يساعد دائمًا في التطبيق الواقعي، حيث يمكن أن تقع بيانات الاختبار خارج نطاق التوزيع التدريبي.

نهج تيتان: وحدة ذاكرة مستوحاة من علم الأعصاب

اتخذ فريق تيتان نهجًا مختلفًا، ساعيًا إلى ترميز المعلومات في معلمات الشبكة العصبية. لقد طوروا نموذجًا فائقًا عبر الإنترنت مصممًا لتعلم كيفية تذكر ونسيان بيانات محددة أثناء الاختبار. هذا النموذج مستوحى من مبادئ علم النفس العصبي، ويتضمن العناصر الرئيسية التالية:

  • المفاجأة كمحفز: يتم تذكر الأحداث غير المتوقعة بسهولة أكبر. يتم قياس "المفاجأة" عن طريق تدرج الإدخال إلى وحدة الذاكرة. كلما كان التدرج أكبر، كان الإدخال غير متوقع أكثر.
  • آليات الزخم والنسيان: تعمل آلية الزخم على تجميع المفاجآت قصيرة المدى في ذاكرة طويلة المدى، بينما تمحو آلية النسيان الذكريات القديمة، مما يمنع تجاوز الذاكرة.
  • ذاكرة قائمة على متعدد الطبقات (MLP): تتكون وحدة الذاكرة من طبقات MLP متعددة، مما يسمح لها بتخزين تجريدات عميقة للبيانات، مما يجعلها أقوى من الذكريات التقليدية القائمة على المصفوفة.

يساعد هذا النهج الفائق عبر الإنترنت النموذج على التركيز على تعلم كيفية التكيف مع البيانات الجديدة، بدلاً من مجرد حفظ بيانات التدريب. تم تصميم الوحدة أيضًا للحساب المتوازي، مما يعزز كفاءتها.

دمج وحدة الذاكرة في بنى التعلم العميق

اقترح فريق بحث تيتان ثلاثة اختلافات لدمج وحدة الذاكرة الخاصة بهم في بنى التعلم العميق:

  1. MAC (الذاكرة كسياق): تجمع هذه الطريقة بين الذاكرة طويلة المدى والدائمة (التي ترمز إلى معرفة المهمة) كسياق يتم إدخاله إلى آلية الانتباه.
  2. MAG (الذاكرة كبوابة): يستخدم هذا النهج دمجًا مسورًا لوحدة الذاكرة مع آلية انتباه نافذة منزلقة عبر فرعين.
  3. MAL (الذاكرة كطبقة): هنا، يتم تنفيذ وحدة الذاكرة كطبقة مستقلة تقوم بضغط المعلومات التاريخية قبل إدخالها إلى آلية الانتباه.

وجد الفريق أن لكل اختلاف نقاط قوة ونقاط ضعف.

أداء ومزايا تيتان

أظهرت تيتان أداءً فائقًا عبر مجموعة متنوعة من المهام، بما في ذلك نمذجة اللغة والاستدلال المنطقي والتنبؤ بالسلاسل الزمنية. لقد تجاوزت النماذج الحديثة مثل المحولات ومامبا. والجدير بالذكر أن وحدة الذاكرة طويلة المدى (LMM) وحدها قد تفوقت على النماذج الأساسية في العديد من المهام، مما يدل على قدراتها التعليمية المستقلة دون ذاكرة قصيرة المدى (الانتباه).

في اختبار "إبرة في كومة قش" المصمم للعثور على أدلة دقيقة في النصوص الطويلة، حافظت تيتان على دقة تبلغ حوالي 90٪ حتى مع زيادة أطوال التسلسل من 2k إلى 16k. يشير الفريق إلى أن الاختبارات القياسية لا تظهر بشكل كامل مزايا تيتان في التعامل مع النصوص الطويلة. كما تفوقت تيتان على نماذج مثل GPT4 وMamba وحتى Llama3.1 مع RAG في مهمة تتطلب استنتاجًا من الحقائق المنتشرة عبر مستندات طويلة للغاية.

أظهرت تيتان أداءً مثيرًا للإعجاب في مجالات محددة مثل التنبؤ بالسلاسل الزمنية ونمذجة تسلسل الحمض النووي أيضًا.

الفريق وراء تيتان

أجرى البحث فريق من مجموعة الخوارزميات والتحسين في Google Research NYC، وليس جزءًا حاليًا من Google DeepMind.

علي بهروز، وهو متدرب في جامعة كورنيل، هو المؤلف الأول للورقة.

تشونغ بيلين، وهو خريج جامعة تسينغهوا وحاصل على درجة الدكتوراه من جامعة كولومبيا، هو عالم أبحاث في جوجل منذ عام 2021. وهو معروف بنشره ورقة بحثية كمؤلف أول في STOC 2016 كطالب جامعي.

يقود الفريق فاهاب ميروكني، وهو زميل ونائب رئيس في جوجل.

طور الفريق تيتان باستخدام Pytorch وJax ويخطط لإصدار الكود للتدريب والتقييم قريبًا.