తక్కువ మెమరీతో LLMల కోసం నూతన శ్రద్ధ విధానం

పరిచయం

పెద్ద భాషా నమూనాల (LLMలు) వినియోగం పెరుగుతుండటంతో, సమర్థవంతమైన పెద్ద-స్థాయి అనుమితి అనేది ఒక సవాలుగా మారింది. సాంప్రదాయ శ్రద్ధ విధానాల్లోని కీ-విలువ (KV) కాష్ ఒక ముఖ్యమైన అడ్డంకి, ఇది బ్యాచ్ పరిమాణం మరియు క్రమం పొడవుతో పాటు పెరుగుతూ, LLMల విస్తరణను అడ్డుకునే 'మెమరీ హోగ్'గా మారుతుంది.

MQA, GQA మరియు MLA వంటి రకాలు ఈ సమస్యను పరిష్కరించడానికి వచ్చినప్పటికీ, అవి తరచుగా కఠినమైన మెమరీ పరిమితుల క్రింద పనితీరును నిర్వహించడానికి లేదా ఇంజనీరింగ్ సవాళ్లు మరియు అనుకూలత సమస్యలను కలిగించే సంక్లిష్టతలను ప్రవేశపెట్టడానికి కష్టపడతాయి.

మల్టీ-మాట్రిక్స్ ఫ్యాక్టరైజేషన్ అటెన్షన్ (MFA)

స్టెప్స్, సింగ్‌హువా విశ్వవిద్యాలయం మరియు ఇతర సంస్థల పరిశోధకులు మల్టీ-మాట్రిక్స్ ఫ్యాక్టరైజేషన్ అటెన్షన్ (MFA) మరియు దాని వేరియంట్ MFA-కీ-రీయూస్ (MFA-KR) అనే సరికొత్త శ్రద్ధ విధానాన్ని ప్రవేశపెట్టారు. ఈ విధానం భాషా నమూనా అనుమితి ఖర్చును గణనీయంగా తగ్గిస్తుంది, అదే సమయంలో పనితీరును మెరుగుపరుస్తుంది.

MFA మరియు MFA-KR, MLA పనితీరును అధిగమించడమే కాకుండా, KV కాష్ వినియోగాన్ని 93.7% వరకు తగ్గించడంతోపాటు సాంప్రదాయ MHA పనితీరుతో సరిపోలుతున్నాయి.

MFA అనేది సరళత, సులభంగా పునరుత్పత్తి, హైపర్‌పారామీటర్‌లకు తక్కువ సున్నితత్వం మరియు వివిధ Pos-ఎంబెడింగ్ పద్ధతులతో అనుకూలత కోసం రూపొందించబడింది.

MFA విధానం మరియు విశ్లేషణ

పరిశోధన బృందం శ్రద్ధ విధానాల యొక్క సాధారణ రూపకల్పన మరియు సామర్థ్యాన్ని విశ్లేషించింది, సామర్థ్యానికి సంబంధించిన రెండు క్లిష్టమైన కోణాలను గుర్తించింది. ఈ విశ్లేషణ కొత్త విశ్లేషణాత్మక పద్ధతులు మరియు రూపకల్పన సూత్రాల అభివృద్ధికి దారితీసింది.

వారు వివిధ MHA వేరియంట్‌లను అర్థం చేసుకోవడానికి ఏకీకృత చట్రంగా జనరలైజ్డ్ మల్టీ-హెడ్ అటెన్షన్ (GMHA) అనే భావనను ప్రవేశపెట్టారు.

అంతేకాకుండా, వారు అనుమితి దృక్కోణం నుండి కీ-విలువలను లెక్కించడం మరియు నిల్వ చేయడాన్ని అన్వేషించారు మరియు నమూనా సామర్థ్యాన్ని విచ్ఛిన్నం దృక్కోణం నుండి పరిశీలించారు.

పూర్తిగా పరామీకరించబడిన బైలీనియర్ అటెన్షన్ (FPBA) పనితీరు యొక్క సైద్ధాంతిక ఎగువ పరిమితిగా స్థాపించబడింది. MHA మరియు దాని వేరియంట్‌లు FPBA యొక్క తక్కువ-ర్యాంక్ విచ్ఛిన్నాలు అని వారు కనుగొన్నారు.

MQA మరియు MLAతో పోలిక

విశ్లేషణ రెండు ప్రాతినిధ్య మెరుగుదల పథకాలపై దృష్టి సారించింది: మల్టీ-క్వెరీ అటెన్షన్ (MQA) మరియు మల్టీ-హెడ్ లాటెంట్ అటెన్షన్ (MLA).

MQA మరింత దూకుడు పరామితి-భాగస్వామ్య వ్యూహాన్ని ఉపయోగిస్తుంది, ఇక్కడ అన్ని శ్రద్ధా శీర్షికలు కీ-విలువ పరామితుల యొక్క ఒకే సెట్‌ను పంచుకుంటాయి. ఇది మెమరీ వినియోగాన్ని తగ్గిస్తుంది, కానీ నమూనా యొక్క వ్యక్తీకరణను ప్రభావితం చేయవచ్చు.

MLA పరామితి కుదింపు కోసం భాగస్వామ్య గుప్త స్థలాన్ని ప్రవేశపెడుతుంది, కానీ వాస్తవ వ్యక్తీకరణ శక్తి అతి చిన్న కొలత ద్వారా పరిమితం చేయబడుతుంది, అంటే మధ్యంతర కొలతలు పెంచడం పనితీరును గణనీయంగా మెరుగుపరచదు.

MFA కీలక ఆవిష్కరణలు

MFA అభివృద్ధి వనరుల వినియోగాన్ని తగ్గించేటప్పుడు సైద్ధాంతిక పనితీరు పరిమితులను చేరుకునే శ్రద్ధ విధానాన్ని సృష్టించే లక్ష్యంతో నడపబడింది. MFA రూపకల్పనలో మూడు ముఖ్యమైన ఆవిష్కరణలు ఉన్నాయి:

నమూనా సామర్థ్యాన్ని పెంచడానికి శ్రద్ధా శీర్షికల సంఖ్య మరియు పరిమాణాన్ని గణనీయంగా పెంచడం.
శ్రద్ధా శీర్షికల సంఖ్య మరియు కొలతలు విస్తరిస్తూ పరామితి సామర్థ్యాన్ని కొనసాగించడానికి దూకుడు తక్కువ-ర్యాంక్ విచ్ఛిన్నం వ్యూహాన్ని ఉపయోగించడం.
పెరిగిన నమూనా సంక్లిష్టతతో కూడా మెమరీ వినియోగాన్ని కనిష్టంగా ఉంచడానికి ఒకే కీ-విలువ శీర్షిక రూపకల్పనను ఉపయోగించడం.

సామర్థ్య కొలత మరియు పోలిక

MFA మరియు ఇతర శ్రద్ధ విధానాలను మరింతగా విశ్లేషించడానికి, బృందం రెండు ముఖ్యమైన కొలమానాలను ప్రవేశపెట్టింది:

మొత్తం సమర్థవంతమైన ర్యాంక్ (TER): శ్రద్ధా శీర్షికల సంఖ్య మరియు ప్రతి శీర్షికకు విచ్ఛిన్నం ర్యాంక్ (FRH) యొక్క ఉత్పత్తి.
భాగస్వామ్య గుప్త ఉపస్థల కొలత (SLSD): అన్ని శ్రద్ధా శీర్షికలు పంచుకునే దాగి ఉన్న స్థలం యొక్క కొలత.

MFA, MQA కంటే ఎక్కువ SLSD మరియు TERని సాధిస్తుంది.

MLAతో పోలిస్తే, MFA సమాన పరామితి బడ్జెట్‌లతో చిన్న KV కాష్ పరిమాణం మరియు అధిక TERని సాధిస్తుంది, అయితే పోల్చదగిన SLSDని నిర్వహిస్తుంది.

సాంప్రదాయ MHAతో పోలిస్తే, MFA యొక్క SLSD చిన్నదిగా ఉన్నప్పటికీ, అధిక TERని కలిగి ఉంది.

ప్రయోగాత్మక ఫలితాలు

కొత్త నిర్మాణ పనితీరును పెద్ద స్థాయిలో అంచనా వేయడానికి విస్తృతమైన ప్రయోగాలు నిర్వహించబడ్డాయి, 1B నుండి 7B పరామితుల వరకు మరియు 10B నుండి 1T వరకు శిక్షణా డేటాను పరీక్షించాయి.

MFA సాంప్రదాయ MHAతో పోల్చదగిన స్కేలింగ్ సామర్థ్యాలను ప్రదర్శించింది, పెద్ద స్థాయిలలో కూడా అద్భుతమైన పనితీరును కొనసాగించింది.

MFA-KR కొద్దిగా తక్కువ పనితీరును కనబరిచినప్పటికీ, దాని స్కేలింగ్ ట్రెండ్ MHAతో సమలేఖనం చేయబడింది. MFA మరియు MFA-KR యొక్క మెమరీ-పొదుపు ప్రయోజనాలు నమూనా పరిమాణంతో విస్తరిస్తూనే ఉన్నాయి, MFA 87.5% మెమరీ పొదుపును సాధించింది మరియు MFA-KR అతిపెద్ద స్థాయిలో 6.25%కి మెమరీ వినియోగాన్ని తగ్గించింది.

అబ్లేషన్ స్టడీస్

అబ్లేషన్ స్టడీస్ MFA మరియు MFA-KR యొక్క ప్రభావాన్ని ధృవీకరించాయి. వాటి పనితీరు ప్రయోజనాలు వివిధ ప్రధాన స్రవంతి స్థానీయ ఎన్‌కోడింగ్ పద్ధతుల ద్వారా కూడా నిర్ధారించబడ్డాయి.

ముగింపు

MFA అనేది సరళమైన రూపకల్పనతో గణనీయమైన మెరుగుదలలను అందిస్తుంది, అదనపు ఇంజనీరింగ్ సంక్లిష్టతను జోడించకుండా LLM అనుమితిలో మెమరీ అడ్డంకిని సమర్థవంతంగా పరిష్కరిస్తుంది. ఇది ఇప్పటికే ఉన్న ట్రాన్స్‌ఫార్మర్ పర్యావరణ వ్యవస్థలోకి సజావుగా కలిసిపోతుంది, వివిధ దృశ్యాలలో LLMల అనువర్తనాన్ని వేగవంతం చేస్తుంది.