- Published on
తక్కువ మెమరీతో LLMల కోసం నూతన శ్రద్ధ విధానం
పరిచయం
పెద్ద భాషా నమూనాల (LLMలు) వినియోగం పెరుగుతుండటంతో, సమర్థవంతమైన పెద్ద-స్థాయి అనుమితి అనేది ఒక సవాలుగా మారింది. సాంప్రదాయ శ్రద్ధ విధానాల్లోని కీ-విలువ (KV) కాష్ ఒక ముఖ్యమైన అడ్డంకి, ఇది బ్యాచ్ పరిమాణం మరియు క్రమం పొడవుతో పాటు పెరుగుతూ, LLMల విస్తరణను అడ్డుకునే 'మెమరీ హోగ్'గా మారుతుంది.
MQA, GQA మరియు MLA వంటి రకాలు ఈ సమస్యను పరిష్కరించడానికి వచ్చినప్పటికీ, అవి తరచుగా కఠినమైన మెమరీ పరిమితుల క్రింద పనితీరును నిర్వహించడానికి లేదా ఇంజనీరింగ్ సవాళ్లు మరియు అనుకూలత సమస్యలను కలిగించే సంక్లిష్టతలను ప్రవేశపెట్టడానికి కష్టపడతాయి.
మల్టీ-మాట్రిక్స్ ఫ్యాక్టరైజేషన్ అటెన్షన్ (MFA)
స్టెప్స్, సింగ్హువా విశ్వవిద్యాలయం మరియు ఇతర సంస్థల పరిశోధకులు మల్టీ-మాట్రిక్స్ ఫ్యాక్టరైజేషన్ అటెన్షన్ (MFA) మరియు దాని వేరియంట్ MFA-కీ-రీయూస్ (MFA-KR) అనే సరికొత్త శ్రద్ధ విధానాన్ని ప్రవేశపెట్టారు. ఈ విధానం భాషా నమూనా అనుమితి ఖర్చును గణనీయంగా తగ్గిస్తుంది, అదే సమయంలో పనితీరును మెరుగుపరుస్తుంది.
MFA మరియు MFA-KR, MLA పనితీరును అధిగమించడమే కాకుండా, KV కాష్ వినియోగాన్ని 93.7% వరకు తగ్గించడంతోపాటు సాంప్రదాయ MHA పనితీరుతో సరిపోలుతున్నాయి.
MFA అనేది సరళత, సులభంగా పునరుత్పత్తి, హైపర్పారామీటర్లకు తక్కువ సున్నితత్వం మరియు వివిధ Pos-ఎంబెడింగ్ పద్ధతులతో అనుకూలత కోసం రూపొందించబడింది.
MFA విధానం మరియు విశ్లేషణ
పరిశోధన బృందం శ్రద్ధ విధానాల యొక్క సాధారణ రూపకల్పన మరియు సామర్థ్యాన్ని విశ్లేషించింది, సామర్థ్యానికి సంబంధించిన రెండు క్లిష్టమైన కోణాలను గుర్తించింది. ఈ విశ్లేషణ కొత్త విశ్లేషణాత్మక పద్ధతులు మరియు రూపకల్పన సూత్రాల అభివృద్ధికి దారితీసింది.
వారు వివిధ MHA వేరియంట్లను అర్థం చేసుకోవడానికి ఏకీకృత చట్రంగా జనరలైజ్డ్ మల్టీ-హెడ్ అటెన్షన్ (GMHA) అనే భావనను ప్రవేశపెట్టారు.
అంతేకాకుండా, వారు అనుమితి దృక్కోణం నుండి కీ-విలువలను లెక్కించడం మరియు నిల్వ చేయడాన్ని అన్వేషించారు మరియు నమూనా సామర్థ్యాన్ని విచ్ఛిన్నం దృక్కోణం నుండి పరిశీలించారు.
పూర్తిగా పరామీకరించబడిన బైలీనియర్ అటెన్షన్ (FPBA) పనితీరు యొక్క సైద్ధాంతిక ఎగువ పరిమితిగా స్థాపించబడింది. MHA మరియు దాని వేరియంట్లు FPBA యొక్క తక్కువ-ర్యాంక్ విచ్ఛిన్నాలు అని వారు కనుగొన్నారు.
MQA మరియు MLAతో పోలిక
విశ్లేషణ రెండు ప్రాతినిధ్య మెరుగుదల పథకాలపై దృష్టి సారించింది: మల్టీ-క్వెరీ అటెన్షన్ (MQA) మరియు మల్టీ-హెడ్ లాటెంట్ అటెన్షన్ (MLA).
MQA మరింత దూకుడు పరామితి-భాగస్వామ్య వ్యూహాన్ని ఉపయోగిస్తుంది, ఇక్కడ అన్ని శ్రద్ధా శీర్షికలు కీ-విలువ పరామితుల యొక్క ఒకే సెట్ను పంచుకుంటాయి. ఇది మెమరీ వినియోగాన్ని తగ్గిస్తుంది, కానీ నమూనా యొక్క వ్యక్తీకరణను ప్రభావితం చేయవచ్చు.
MLA పరామితి కుదింపు కోసం భాగస్వామ్య గుప్త స్థలాన్ని ప్రవేశపెడుతుంది, కానీ వాస్తవ వ్యక్తీకరణ శక్తి అతి చిన్న కొలత ద్వారా పరిమితం చేయబడుతుంది, అంటే మధ్యంతర కొలతలు పెంచడం పనితీరును గణనీయంగా మెరుగుపరచదు.
MFA కీలక ఆవిష్కరణలు
MFA అభివృద్ధి వనరుల వినియోగాన్ని తగ్గించేటప్పుడు సైద్ధాంతిక పనితీరు పరిమితులను చేరుకునే శ్రద్ధ విధానాన్ని సృష్టించే లక్ష్యంతో నడపబడింది. MFA రూపకల్పనలో మూడు ముఖ్యమైన ఆవిష్కరణలు ఉన్నాయి:
- నమూనా సామర్థ్యాన్ని పెంచడానికి శ్రద్ధా శీర్షికల సంఖ్య మరియు పరిమాణాన్ని గణనీయంగా పెంచడం.
- శ్రద్ధా శీర్షికల సంఖ్య మరియు కొలతలు విస్తరిస్తూ పరామితి సామర్థ్యాన్ని కొనసాగించడానికి దూకుడు తక్కువ-ర్యాంక్ విచ్ఛిన్నం వ్యూహాన్ని ఉపయోగించడం.
- పెరిగిన నమూనా సంక్లిష్టతతో కూడా మెమరీ వినియోగాన్ని కనిష్టంగా ఉంచడానికి ఒకే కీ-విలువ శీర్షిక రూపకల్పనను ఉపయోగించడం.
సామర్థ్య కొలత మరియు పోలిక
MFA మరియు ఇతర శ్రద్ధ విధానాలను మరింతగా విశ్లేషించడానికి, బృందం రెండు ముఖ్యమైన కొలమానాలను ప్రవేశపెట్టింది:
- మొత్తం సమర్థవంతమైన ర్యాంక్ (TER): శ్రద్ధా శీర్షికల సంఖ్య మరియు ప్రతి శీర్షికకు విచ్ఛిన్నం ర్యాంక్ (FRH) యొక్క ఉత్పత్తి.
- భాగస్వామ్య గుప్త ఉపస్థల కొలత (SLSD): అన్ని శ్రద్ధా శీర్షికలు పంచుకునే దాగి ఉన్న స్థలం యొక్క కొలత.
MFA, MQA కంటే ఎక్కువ SLSD మరియు TERని సాధిస్తుంది.
MLAతో పోలిస్తే, MFA సమాన పరామితి బడ్జెట్లతో చిన్న KV కాష్ పరిమాణం మరియు అధిక TERని సాధిస్తుంది, అయితే పోల్చదగిన SLSDని నిర్వహిస్తుంది.
సాంప్రదాయ MHAతో పోలిస్తే, MFA యొక్క SLSD చిన్నదిగా ఉన్నప్పటికీ, అధిక TERని కలిగి ఉంది.
ప్రయోగాత్మక ఫలితాలు
కొత్త నిర్మాణ పనితీరును పెద్ద స్థాయిలో అంచనా వేయడానికి విస్తృతమైన ప్రయోగాలు నిర్వహించబడ్డాయి, 1B నుండి 7B పరామితుల వరకు మరియు 10B నుండి 1T వరకు శిక్షణా డేటాను పరీక్షించాయి.
MFA సాంప్రదాయ MHAతో పోల్చదగిన స్కేలింగ్ సామర్థ్యాలను ప్రదర్శించింది, పెద్ద స్థాయిలలో కూడా అద్భుతమైన పనితీరును కొనసాగించింది.
MFA-KR కొద్దిగా తక్కువ పనితీరును కనబరిచినప్పటికీ, దాని స్కేలింగ్ ట్రెండ్ MHAతో సమలేఖనం చేయబడింది. MFA మరియు MFA-KR యొక్క మెమరీ-పొదుపు ప్రయోజనాలు నమూనా పరిమాణంతో విస్తరిస్తూనే ఉన్నాయి, MFA 87.5% మెమరీ పొదుపును సాధించింది మరియు MFA-KR అతిపెద్ద స్థాయిలో 6.25%కి మెమరీ వినియోగాన్ని తగ్గించింది.
అబ్లేషన్ స్టడీస్
అబ్లేషన్ స్టడీస్ MFA మరియు MFA-KR యొక్క ప్రభావాన్ని ధృవీకరించాయి. వాటి పనితీరు ప్రయోజనాలు వివిధ ప్రధాన స్రవంతి స్థానీయ ఎన్కోడింగ్ పద్ధతుల ద్వారా కూడా నిర్ధారించబడ్డాయి.
ముగింపు
MFA అనేది సరళమైన రూపకల్పనతో గణనీయమైన మెరుగుదలలను అందిస్తుంది, అదనపు ఇంజనీరింగ్ సంక్లిష్టతను జోడించకుండా LLM అనుమితిలో మెమరీ అడ్డంకిని సమర్థవంతంగా పరిష్కరిస్తుంది. ఇది ఇప్పటికే ఉన్న ట్రాన్స్ఫార్మర్ పర్యావరణ వ్యవస్థలోకి సజావుగా కలిసిపోతుంది, వివిధ దృశ్యాలలో LLMల అనువర్తనాన్ని వేగవంతం చేస్తుంది.