- Published on
बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र
परिचय
बड़े भाषा मॉडल (LLM) का बढ़ता उपयोग और अनुमान में नए प्रतिमानों के उद्भव ने कुशल बड़े पैमाने पर अनुमान की चुनौती को सामने लाया है। एक महत्वपूर्ण बाधा पारंपरिक ध्यान तंत्र के भीतर Key-Value (KV) कैश है, जो बैच आकार और अनुक्रम लंबाई के साथ रैखिक रूप से फैलता है, जिससे यह एक "मेमोरी हॉग" बन जाता है जो LLM के स्केलिंग और विस्तार में बाधा डालता है।
जबकि MQA, GQA और MLA जैसे वेरिएंट इस समस्या को हल करने के लिए उभरे हैं, वे अक्सर सख्त मेमोरी बाधाओं के तहत प्रदर्शन बनाए रखने के लिए संघर्ष करते हैं या जटिलताओं को पेश करते हैं जो इंजीनियरिंग चुनौतियों और संगतता समस्याओं को जन्म देते हैं।
मल्टी-मैट्रिक्स फैक्टराइजेशन अटेंशन (MFA)
स्टेप्स, सिंघुआ विश्वविद्यालय और अन्य संस्थानों के शोधकर्ताओं द्वारा एक हालिया पेपर एक उपन्यास ध्यान तंत्र वास्तुकला का परिचय देता है: मल्टी-मैट्रिक्स फैक्टराइजेशन अटेंशन (MFA) और इसका संस्करण MFA-Key-Reuse (MFA-KR)। यह तंत्र भाषा मॉडल अनुमान की लागत को काफी कम करता है जबकि साथ ही प्रदर्शन में सुधार करता है।
MFA और MFA-KR न केवल MLA से बेहतर प्रदर्शन करते हैं बल्कि पारंपरिक MHA प्रदर्शन से भी मेल खाते हैं जबकि KV कैश उपयोग को 93.7% तक कम करते हैं।
MFA को सादगी, आसान पुनरुत्पादन, हाइपरपैरामीटर के प्रति कम संवेदनशीलता और विभिन्न पॉस-एम्बेडिंग विधियों के साथ संगतता के लिए डिज़ाइन किया गया है।
MFA दृष्टिकोण और विश्लेषण
अनुसंधान टीम ने ध्यान तंत्र के सामान्य डिजाइन और क्षमता का विश्लेषण किया, क्षमता से संबंधित दो महत्वपूर्ण आयामों की पहचान की। इस विश्लेषण से नए विश्लेषणात्मक तरीकों और डिजाइन सिद्धांतों का विकास हुआ।
उन्होंने विभिन्न MHA वेरिएंट को समझने के लिए एक एकीकृत ढांचे के रूप में सामान्यीकृत मल्टी-हेड अटेंशन (GMHA) की अवधारणा पेश की।
टीम ने अनुमान के दृष्टिकोण से प्रमुख-मूल्यों की गणना और भंडारण की भी खोज की और अपघटन परिप्रेक्ष्य से मॉडल क्षमता की जांच की।
पूरी तरह से पैरामीट्रिज्ड बिलिनियर अटेंशन (FPBA) को प्रदर्शन की सैद्धांतिक ऊपरी सीमा के रूप में स्थापित किया गया था। उन्होंने पाया कि MHA और इसके वेरिएंट FPBA के निम्न-रैंक अपघटन हैं।
MQA और MLA के साथ तुलना
विश्लेषण दो प्रतिनिधि सुधार योजनाओं पर केंद्रित था: मल्टी-क्वेरी अटेंशन (MQA) और मल्टी-हेड लेटेंट अटेंशन (MLA)।
MQA एक अधिक आक्रामक पैरामीटर-साझाकरण रणनीति का उपयोग करता है, जहाँ सभी ध्यान प्रमुख प्रमुख-मूल्य मापदंडों के समान सेट को साझा करते हैं। यह मेमोरी उपयोग को कम करता है लेकिन मॉडल की अभिव्यंजक शक्ति को प्रभावित कर सकता है।
MLA पैरामीटर संपीड़न के लिए एक साझा लेटेंट स्पेस पेश करता है, लेकिन वास्तविक अभिव्यंजक शक्ति सबसे छोटे आयाम द्वारा सीमित है, जिसका अर्थ है कि मध्यवर्ती आयामों को बढ़ाने से प्रदर्शन में महत्वपूर्ण सुधार नहीं होता है।
MFA प्रमुख नवाचार
MFA का विकास एक ध्यान तंत्र बनाने के लक्ष्य से प्रेरित था जो सैद्धांतिक प्रदर्शन सीमाओं तक पहुंचते हुए संसाधन खपत को कम करता है। MFA के डिज़ाइन में तीन प्रमुख नवाचार शामिल हैं:
- मॉडल क्षमता को अधिकतम करने के लिए ध्यान प्रमुखों की संख्या और आयाम को काफी बढ़ाना।
- ध्यान प्रमुखों की संख्या और आयाम का विस्तार करते हुए पैरामीटर दक्षता बनाए रखने के लिए एक आक्रामक निम्न-रैंक अपघटन रणनीति को नियोजित करना।
- मॉडल जटिलता में वृद्धि के साथ भी मेमोरी खपत को कम रखने के लिए एक एकल कुंजी-मूल्य प्रमुख डिज़ाइन का उपयोग करना।
क्षमता मापन और तुलना
MFA और अन्य ध्यान तंत्रों का आगे विश्लेषण करने के लिए, टीम ने दो प्रमुख मैट्रिक्स पेश किए:
- टोटल इफेक्टिव रैंक (TER): ध्यान प्रमुखों की संख्या और प्रति प्रमुख फैक्टराइजेशन रैंक (FRH) का गुणनफल।
- शेयर्ड लेटेंट सबस्पेस डायमेंशन (SLSD): सभी ध्यान प्रमुखों द्वारा साझा किए गए छिपे हुए स्थान का आयाम।
MFA, MQA की तुलना में उच्च SLSD और TER प्राप्त करता है।
MLA की तुलना में, MFA समान पैरामीटर बजट के साथ एक छोटा KV कैश आकार और उच्च TER प्राप्त करता है, जबकि एक तुलनीय SLSD बनाए रखता है।
पारंपरिक MHA की तुलना में, MFA में एक उच्च TER होता है, भले ही इसका SLSD छोटा हो।
प्रायोगिक परिणाम
नए आर्किटेक्चर के प्रदर्शन का बड़े पैमाने पर मूल्यांकन करने के लिए व्यापक प्रयोग किए गए थे, जिसमें 1B से 7B पैरामीटर और 10B से 1T तक के प्रशिक्षण डेटा के मॉडल का परीक्षण किया गया था।
MFA ने पारंपरिक MHA के समान स्केलिंग क्षमताएं प्रदर्शित कीं, यहां तक कि बड़े पैमाने पर भी उत्कृष्ट प्रदर्शन बनाए रखा।
जबकि MFA-KR ने थोड़ा कम प्रदर्शन दिखाया, इसकी स्केलिंग प्रवृत्ति MHA के साथ संरेखित थी। MFA और MFA-KR के मेमोरी-बचत लाभ मॉडल आकार के साथ विस्तारित होते रहे, MFA ने 87.5% मेमोरी बचत हासिल की और MFA-KR ने सबसे बड़े पैमाने पर मेमोरी उपयोग को 6.25% तक कम कर दिया।
एब्लेशन अध्ययन
एब्लेशन अध्ययनों ने MFA और MFA-KR की प्रभावशीलता को मान्य किया। उनके प्रदर्शन लाभों की पुष्टि विभिन्न मुख्यधारा की स्थितीय एन्कोडिंग विधियों में भी की गई।
आउटलुक
MFA एक सरल डिज़ाइन के साथ महत्वपूर्ण सुधार प्रदान करता है, जो LLM अनुमान में मेमोरी बाधा को अतिरिक्त इंजीनियरिंग जटिलता को जोड़े बिना प्रभावी ढंग से संबोधित करता है। यह मौजूदा ट्रांसफॉर्मर पारिस्थितिकी तंत्र में सहजता से एकीकृत होता है, जिससे विभिन्न परिदृश्यों में LLM के अनुप्रयोग में तेजी आती है।