- Published on
آلية الانتباه الجديدة لتقليل ذاكرة التخزين المؤقت KV
مقدمة
إن الاستخدام المتزايد للنماذج اللغوية الكبيرة (LLMs) وظهور نماذج جديدة في الاستدلال قد أبرزت تحدي الاستدلال الفعال على نطاق واسع. وتعتبر ذاكرة التخزين المؤقت للمفتاح والقيمة (KV) ضمن آليات الانتباه التقليدية عنق زجاجة كبير، حيث تتوسع خطيًا مع حجم الدفعة وطول التسلسل، مما يجعلها 'مستهلكة للذاكرة' تعيق توسيع وتمديد النماذج اللغوية الكبيرة.
في حين ظهرت متغيرات مثل MQA و GQA و MLA لمعالجة هذه المشكلة، فإنها غالبًا ما تكافح للحفاظ على الأداء في ظل قيود الذاكرة الصارمة أو تقدم تعقيدات تثير تحديات هندسية وقضايا توافق.
انتباه تحليل المصفوفات المتعددة (MFA)
قدمت ورقة بحثية حديثة من قبل باحثين من Stepes وجامعة Tsinghua ومؤسسات أخرى، بنية آلية انتباه جديدة: انتباه تحليل المصفوفات المتعددة (MFA) ومتغيره MFA-Key-Reuse (MFA-KR). تقلل هذه الآلية بشكل كبير من تكلفة استدلال النموذج اللغوي مع تحسين الأداء في الوقت نفسه.
لا تتفوق MFA و MFA-KR على MLA في الأداء فحسب، بل تتطابق أيضًا مع أداء MHA التقليدي مع تقليل استخدام ذاكرة التخزين المؤقت KV بنسبة تصل إلى 93.7%.
تم تصميم MFA لتكون بسيطة وسهلة الاستنساخ ومنخفضة الحساسية للمعلمات الفائقة ومتوافقة مع طرق التضمين الموضعي المختلفة.
نهج MFA والتحليل
حلل الفريق البحثي التصميم العام وقدرة آليات الانتباه، وحددوا بعدين حاسمين يتعلقان بالقدرة. أدى هذا التحليل إلى تطوير طرق تحليل جديدة ومبادئ تصميم.
قدموا مفهوم الانتباه متعدد الرؤوس المعمم (GMHA) كإطار موحد لفهم متغيرات MHA المختلفة.
استكشف الفريق أيضًا حساب وتخزين القيم الرئيسية من منظور الاستدلال وفحص قدرة النموذج من منظور التحلل.
تم إنشاء انتباه ثنائي الخطية ذو المعلمات الكاملة (FPBA) كحد نظري أعلى للأداء. وجدوا أن MHA ومتغيراته هي تحللات منخفضة الرتبة لـ FPBA.
مقارنة مع MQA و MLA
ركز التحليل على مخططين تحسينيين تمثيليين: انتباه الاستعلام المتعدد (MQA) وانتباه الكامن متعدد الرؤوس (MLA).
يستخدم MQA استراتيجية أكثر عدوانية لمشاركة المعلمات، حيث تشترك جميع رؤوس الانتباه في نفس مجموعة معلمات المفتاح والقيمة. هذا يقلل من استخدام الذاكرة ولكنه قد يؤثر على قدرة النموذج التعبيرية.
يقدم MLA مساحة كامنة مشتركة لضغط المعلمات، لكن القوة التعبيرية الفعلية محدودة بأصغر بُعد، مما يعني أن زيادة الأبعاد المتوسطة لا تحسن الأداء بشكل كبير.
ابتكارات MFA الرئيسية
كان تطوير MFA مدفوعًا بالهدف المتمثل في إنشاء آلية انتباه تقلل من استهلاك الموارد مع الاقتراب من حدود الأداء النظرية. يشتمل تصميم MFA على ثلاثة ابتكارات رئيسية:
- زيادة كبيرة في عدد وأبعاد رؤوس الانتباه لزيادة قدرة النموذج إلى أقصى حد.
- توظيف استراتيجية تحلل منخفضة الرتبة عدوانية للحفاظ على كفاءة المعلمات مع توسيع عدد وأبعاد رؤوس الانتباه.
- استخدام تصميم رأس مفتاح وقيمة واحد للحفاظ على استهلاك الذاكرة في حده الأدنى، حتى مع زيادة تعقيد النموذج.
قياس القدرة والمقارنة
لمزيد من تحليل MFA وآليات الانتباه الأخرى، قدم الفريق مقياسين رئيسيين:
- الرتبة الفعالة الكلية (TER): ناتج عدد رؤوس الانتباه ورتبة التحلل لكل رأس (FRH).
- بُعد الفضاء الفرعي الكامن المشترك (SLSD): بُعد الفضاء الخفي المشترك بين جميع رؤوس الانتباه.
تحقق MFA قيم SLSD و TER أعلى مقارنة بـ MQA.
بالمقارنة مع MLA، تحقق MFA حجم ذاكرة تخزين مؤقت KV أصغر و TER أعلى بميزانيات معلمات مماثلة، مع الحفاظ على SLSD مماثل.
بالمقارنة مع MHA التقليدية، تتمتع MFA بـ TER أعلى، على الرغم من أن SLSD الخاص بها أصغر.
النتائج التجريبية
أجريت تجارب مكثفة لتقييم أداء البنية الجديدة على نطاقات أوسع، واختبار النماذج التي تتراوح بين 1B و 7B من المعلمات وبيانات التدريب من 10B إلى 1T.
أظهرت MFA قدرات توسع مماثلة لـ MHA التقليدية، مع الحفاظ على أداء ممتاز حتى على نطاقات أوسع.
في حين أظهرت MFA-KR أداءً أقل قليلاً، إلا أن اتجاه التوسع الخاص بها يتماشى مع MHA. استمرت مزايا توفير الذاكرة لـ MFA و MFA-KR في التوسع مع حجم النموذج، حيث حققت MFA توفيرًا في الذاكرة بنسبة 87.5% وقللت MFA-KR استخدام الذاكرة إلى 6.25% على أكبر نطاق.
دراسات الاستئصال
أكدت دراسات الاستئصال فعالية MFA و MFA-KR. كما تم تأكيد مزايا أدائها عبر طرق الترميز الموضعي السائدة المختلفة.
النظرة المستقبلية
تقدم MFA تحسينات كبيرة بتصميم بسيط، وتتصدى بشكل فعال لعنق الزجاجة في الذاكرة في استدلال LLM دون إضافة تعقيد هندسي إضافي. يتم دمجها بسلاسة في نظام Transformer البيئي الحالي، مما يسرع تطبيق LLMs في مختلف السيناريوهات.