- Published on
பெரிய மொழி மாதிரிகளில் KV கேச் குறைப்புக்கான புதிய கவனம்
அறிமுகம்
பெரிய மொழி மாதிரிகளின் (LLMs) பயன்பாடு அதிகரித்து வருவதால், திறமையான பெரிய அளவிலான ஊகம் ஒரு சவாலாக உள்ளது. பாரம்பரிய கவனம் வழிமுறைகளில் உள்ள முக்கிய-மதிப்பு (KV) கேச் ஒரு பெரிய தடையாக உள்ளது. இது தொகுதி அளவு மற்றும் வரிசை நீளத்துடன் நேரியலாக விரிவடைகிறது, இது LLMகளின் அளவிடுதல் மற்றும் விரிவாக்கத்திற்கு தடையாக உள்ளது.
MQA, GQA மற்றும் MLA போன்ற வகைகள் இதைச் சமாளிக்க தோன்றினாலும், அவை கடுமையான நினைவகக் கட்டுப்பாடுகளின் கீழ் செயல்திறனைப் பராமரிக்க சிரமப்படுகின்றன அல்லது பொறியியல் சவால்கள் மற்றும் பொருந்தக்கூடிய சிக்கல்களை உருவாக்குகின்றன.
மல்டி-மேட்ரிக்ஸ் ஃபேக்டரைசேஷன் கவனம் (MFA)
ஸ்டெப்ஸ், சிங்குவா பல்கலைக்கழகம் மற்றும் பிற நிறுவனங்களைச் சேர்ந்த ஆராய்ச்சியாளர்கள் சமீபத்தில் மல்டி-மேட்ரிக்ஸ் ஃபேக்டரைசேஷன் கவனம் (MFA) மற்றும் அதன் மாறுபாடு MFA-Key-Reuse (MFA-KR) ஆகியவற்றை அறிமுகப்படுத்தியுள்ளனர். இந்த வழிமுறை மொழி மாதிரி ஊகத்தின் செலவைக் குறைக்கிறது மற்றும் செயல்திறனை மேம்படுத்துகிறது.
MFA மற்றும் MFA-KR ஆகியவை MLA ஐ விட சிறந்த செயல்திறனைக் கொண்டுள்ளது மற்றும் KV கேச் பயன்பாட்டை 93.7% வரை குறைத்து பாரம்பரிய MHA செயல்திறனுடன் பொருந்துகிறது.
MFA எளிமையான வடிவமைப்பு, எளிதான இனப்பெருக்கம், ஹைப்பர் அளவுருக்களுக்கு குறைந்த உணர்திறன் மற்றும் பல்வேறு நிலை-பொதிவு முறைகளுடன் இணக்கமானது.
MFA அணுகுமுறை மற்றும் பகுப்பாய்வு
ஆராய்ச்சிக் குழு கவனம் வழிமுறைகளின் பொதுவான வடிவமைப்பு மற்றும் திறனை ஆய்வு செய்தது, மேலும் திறன் தொடர்பான இரண்டு முக்கியமான பரிமாணங்களை அடையாளம் கண்டது. இந்த பகுப்பாய்வு புதிய பகுப்பாய்வு முறைகள் மற்றும் வடிவமைப்பு கொள்கைகளுக்கு வழிவகுத்தது.
அவர்கள் ஜெனரலைஸ்டு மல்டி-ஹெட் கவனம் (GMHA) என்ற கருத்தை வெவ்வேறு MHA வகைகளைப் புரிந்துகொள்வதற்கான ஒரு ஒருங்கிணைந்த கட்டமைப்பாக அறிமுகப்படுத்தினர்.
அவர்கள் ஊகக் கண்ணோட்டத்தில் இருந்து முக்கிய-மதிப்புகளின் கணக்கீடு மற்றும் சேமிப்பகத்தையும், சிதைவு கண்ணோட்டத்தில் இருந்து மாதிரி திறனையும் ஆராய்ந்தனர்.
முழுமையாக அளவுருவாக்கப்பட்ட பைலீனியர் கவனம் (FPBA) செயல்திறனின் தத்துவார்த்த மேல் வரம்பாக நிறுவப்பட்டது. MHA மற்றும் அதன் வகைகள் FPBA இன் குறைந்த-தர சிதைவுகள் என்று அவர்கள் கண்டறிந்தனர்.
MQA மற்றும் MLA உடன் ஒப்பீடு
மல்டி-குவெரி கவனம் (MQA) மற்றும் மல்டி-ஹெட் லேட்டன்ட் கவனம் (MLA) ஆகிய இரண்டு பிரதிநிதித்துவ மேம்பாட்டுத் திட்டங்களில் பகுப்பாய்வு கவனம் செலுத்தியது.
MQA ஒரு ஆக்கிரமிப்பு அளவுரு-பகிர்வு உத்தியைப் பயன்படுத்துகிறது, அங்கு அனைத்து கவனம் தலைவர்களும் ஒரே மாதிரியான முக்கிய-மதிப்பு அளவுருக்களைப் பகிர்ந்து கொள்கிறார்கள். இது நினைவக பயன்பாட்டைக் குறைக்கிறது, ஆனால் மாதிரியின் வெளிப்பாட்டைப் பாதிக்கலாம்.
MLA அளவுரு சுருக்கத்திற்கான பகிரப்பட்ட லேட்டன்ட் இடத்தை அறிமுகப்படுத்துகிறது, ஆனால் உண்மையான வெளிப்படுத்தும் சக்தி மிகச்சிறிய பரிமாணத்தால் வரையறுக்கப்படுகிறது, அதாவது இடைநிலை பரிமாணங்களை அதிகரிப்பது செயல்திறனை கணிசமாக மேம்படுத்தாது.
MFA முக்கிய கண்டுபிடிப்புகள்
வள நுகர்வு குறைக்கும் அதே வேளையில், தத்துவார்த்த செயல்திறன் வரம்புகளை அணுகும் கவனம் வழிமுறையை உருவாக்குவதே MFA இன் வளர்ச்சியின் நோக்கமாக இருந்தது. MFA வடிவமைப்பில் மூன்று முக்கிய கண்டுபிடிப்புகள் உள்ளன:
- மாதிரி திறனை அதிகரிக்க கவனம் தலைவர்களின் எண்ணிக்கை மற்றும் பரிமாணத்தை அதிகரித்தல்.
- கவனம் தலைவர்களின் எண்ணிக்கை மற்றும் பரிமாணங்களை விரிவுபடுத்தும் அதே வேளையில் அளவுரு திறனைப் பராமரிக்க ஆக்கிரமிப்பு குறைந்த-தர சிதைவு உத்தியைப் பயன்படுத்துதல்.
- அதிகரித்த மாதிரி சிக்கலான நிலையிலும், நினைவக நுகர்வு குறைவாக வைத்திருக்க ஒரு முக்கிய-மதிப்பு தலை வடிவமைப்பைப் பயன்படுத்துதல்.
திறன் அளவீடு மற்றும் ஒப்பீடு
MFA மற்றும் பிற கவனம் வழிமுறைகளை மேலும் பகுப்பாய்வு செய்ய, குழு இரண்டு முக்கிய அளவீடுகளை அறிமுகப்படுத்தியது:
- மொத்த பயனுள்ள தரவரிசை (TER): கவனம் தலைவர்களின் எண்ணிக்கை மற்றும் தலைக்கு காரணிப்படுத்தல் தரவரிசை (FRH) ஆகியவற்றின் பெருக்கல்.
- பகிரப்பட்ட லேட்டன்ட் துணைவெளி பரிமாணம் (SLSD): அனைத்து கவனம் தலைவர்களாலும் பகிரப்பட்ட மறைக்கப்பட்ட இடத்தின் பரிமாணம்.
MFA, MQA ஐ விட அதிக SLSD மற்றும் TER ஐ அடைகிறது.
MLA உடன் ஒப்பிடும்போது, MFA, KV கேச் அளவை குறைத்தும், அதே அளவுரு வரவு செலவுத் திட்டத்தில் அதிக TER ஐயும் அடைகிறது. மேலும் ஒப்பிடக்கூடிய SLSD ஐயும் பராமரிக்கிறது.
பாரம்பரிய MHA உடன் ஒப்பிடும்போது, MFA அதிக TER ஐக் கொண்டுள்ளது, அதன் SLSD சிறியதாக இருந்தாலும்.
சோதனை முடிவுகள்
புதிய கட்டமைப்பின் செயல்திறனை பெரிய அளவில் மதிப்பிடுவதற்கு விரிவான சோதனைகள் நடத்தப்பட்டன, 1B முதல் 7B அளவுருக்கள் வரையிலான மாதிரிகள் மற்றும் 10B முதல் 1T வரையிலான பயிற்சி தரவு சோதிக்கப்பட்டது.
MFA, பாரம்பரிய MHA க்கு இணையான அளவிடுதல் திறன்களை நிரூபித்தது, மேலும் பெரிய அளவிலும் சிறந்த செயல்திறனைப் பராமரித்தது.
MFA-KR சற்று குறைந்த செயல்திறனைக் கொண்டிருந்தாலும், அதன் அளவிடுதல் போக்கு MHA உடன் ஒத்துப்போனது. MFA மற்றும் MFA-KR இன் நினைவக சேமிப்பு நன்மைகள் மாதிரி அளவுடன் விரிவடைந்தது, MFA 87.5% நினைவக சேமிப்பையும், MFA-KR 6.25% வரை நினைவக பயன்பாட்டையும் குறைத்தது.
நீக்குதல் ஆய்வுகள்
MFA மற்றும் MFA-KR இன் செயல்திறனை நீக்குதல் ஆய்வுகள் உறுதிப்படுத்தின. அவற்றின் செயல்திறன் நன்மைகள் பல்வேறு முக்கிய நிலை குறியீட்டு முறைகளிலும் உறுதிப்படுத்தப்பட்டன.
கண்ணோட்டம்
MFA ஒரு எளிய வடிவமைப்பைக் கொண்டு குறிப்பிடத்தக்க மேம்பாடுகளை வழங்குகிறது, மேலும் கூடுதல் பொறியியல் சிக்கல்களைச் சேர்க்காமல் LLM ஊகத்தில் நினைவக தடையை திறம்பட நிவர்த்தி செய்கிறது. இது ஏற்கனவே உள்ள டிரான்ஸ்பார்மர் சுற்றுச்சூழல் அமைப்பில் தடையின்றி ஒருங்கிணைக்கிறது, பல்வேறு சூழ்நிலைகளில் LLMகளின் பயன்பாட்டை துரிதப்படுத்துகிறது.