- Published on
Mbinu Mpya ya Uangalifu Punguza Akiba ya KV
Utangulizi
Matumizi yanayoongezeka ya lugha kubwa za lugha (LLMs) na kuibuka kwa dhana mpya katika hitimisho kumeleta changamoto ya hitimisho kubwa lenye ufanisi. Kikwazo kikubwa ni akiba ya Key-Value (KV) ndani ya mbinu za kawaida za uangalifu, ambayo huongezeka kwa mstari na ukubwa wa kundi na urefu wa mfuatano, na kuwa "mteketezaji kumbukumbu" ambayo huzuia kuongezeka na kupanuka kwa LLMs.
Wakati tofauti kama MQA, GQA, na MLA zimejitokeza kushughulikia hili, mara nyingi hushindwa kudumisha utendaji chini ya vikwazo vikali vya kumbukumbu au huleta ugumu ambao huleta changamoto za uhandisi na masuala ya utangamano.
Uangalifu wa Utatuzi wa Mambo Mbalimbali (MFA)
Karatasi ya hivi karibuni na watafiti kutoka Stepes, Chuo Kikuu cha Tsinghua, na taasisi nyingine huleta usanifu mpya wa mbinu ya uangalifu: Multi-matrix Factorization Attention (MFA) na lahaja yake MFA-Key-Reuse (MFA-KR). Mbinu hii hupunguza kwa kiasi kikubwa gharama ya hitimisho la lugha huku ikiboresha utendaji kwa wakati mmoja.
MFA na MFA-KR sio tu kuzidi MLA katika utendaji lakini pia kufanana na utendaji wa MHA wa kitamaduni huku kupunguza matumizi ya Akiba ya KV kwa hadi 93.7%.
MFA imeundwa kwa urahisi, uzalishaji rahisi, unyeti mdogo kwa vigezo, na utangamano na mbinu mbalimbali za 'Pos-embedding'.
Mbinu na Uchambuzi wa MFA
Timu ya utafiti ilichambua muundo mkuu na uwezo wa mbinu za uangalifu, ikitambua vipimo viwili muhimu vinavyohusiana na uwezo. Uchambuzi huu ulisababisha maendeleo ya mbinu mpya za uchambuzi na kanuni za kubuni.
Walianzisha dhana ya 'Generalized Multi-Head Attention' (GMHA) kama mfumo wa kuunganisha kwa kuelewa tofauti za MHA.
Timu pia ilichunguza hesabu na uhifadhi wa thamani muhimu kutoka kwa mtazamo wa hitimisho na kuchunguza uwezo wa mfumo kutoka kwa mtazamo wa utengano.
'Fully Parameterized Bilinear Attention' (FPBA) ilianzishwa kama kikomo cha juu cha kinadharia cha utendaji. Waligundua kuwa MHA na tofauti zake ni utengano wa cheo cha chini wa FPBA.
Ulinganisho na MQA na MLA
Uchambuzi ulijikita katika mipango miwili ya uwakilishi: 'Multi-Query Attention' (MQA) na 'Multi-Head Latent Attention' (MLA).
MQA hutumia mkakati wa kushiriki vigezo kwa ukali zaidi, ambapo vichwa vyote vya uangalifu hushiriki seti sawa ya vigezo muhimu. Hii hupunguza matumizi ya kumbukumbu lakini inaweza kuathiri uwezo wa mfumo wa kueleza.
MLA huleta nafasi ya siri iliyoshirikiwa kwa kubana vigezo, lakini uwezo halisi wa kueleza umepunguzwa na kipimo kidogo zaidi, kumaanisha kuwa kuongeza vipimo vya kati hakuboresha utendaji kwa kiasi kikubwa.
Ubunifu Mkuu wa MFA
Maendeleo ya MFA yaliendeshwa na lengo la kuunda mbinu ya uangalifu ambayo hupunguza matumizi ya rasilimali huku ikikaribia mipaka ya utendaji wa kinadharia. Muundo wa MFA unajumuisha ubunifu mkuu tatu:
- Kuongeza kwa kiasi kikubwa idadi na kipimo cha vichwa vya uangalifu ili kuongeza uwezo wa mfumo.
- Kutumia mkakati wa utengano wa cheo cha chini ili kudumisha ufanisi wa vigezo huku ikipanua idadi ya vichwa vya uangalifu na vipimo.
- Kutumia muundo mmoja muhimu wa kichwa ili kuweka matumizi ya kumbukumbu kuwa madogo, hata kwa kuongezeka kwa utata wa mfumo.
Upimaji na Ulinganisho wa Uwezo
Ili kuchambua zaidi MFA na mbinu zingine za uangalifu, timu ilianzisha vipimo viwili muhimu:
- Jumla ya Cheo Kinachofaa (TER): Zao la idadi ya vichwa vya uangalifu na cheo cha 'Factorization' kwa kila kichwa (FRH).
- Kipimo cha Nafasi Ndogo ya Siri (SLSD): Kipimo cha nafasi iliyofichwa inayoshirikiwa na vichwa vyote vya uangalifu.
MFA inafikia SLSD ya juu na TER ikilinganishwa na MQA.
Ikilinganishwa na MLA, MFA inafikia ukubwa mdogo wa akiba ya KV na TER ya juu na bajeti sawa za vigezo, huku ikidumisha SLSD inayolinganishwa.
Ikilinganishwa na MHA ya kitamaduni, MFA ina TER ya juu, ingawa SLSD yake ni ndogo.
Matokeo ya Majaribio
Majaribio mengi yalifanyika kutathmini utendaji wa usanifu mpya kwa kiwango kikubwa, kujaribu mifumo kuanzia vigezo vya 1B hadi 7B na data ya mafunzo kutoka 10B hadi 1T.
MFA ilionyesha uwezo wa kuongezeka unaolinganishwa na MHA ya kitamaduni, ikidumisha utendaji bora hata kwa kiwango kikubwa.
Wakati MFA-KR ilionyesha utendaji mdogo kidogo, mwelekeo wake wa kuongezeka uliendana na MHA. Faida za kuokoa kumbukumbu za MFA na MFA-KR ziliendelea kupanuka na ukubwa wa mfumo, huku MFA ikifikia kuokoa kumbukumbu kwa 87.5% na MFA-KR kupunguza matumizi ya kumbukumbu hadi 6.25% kwa kiwango kikubwa zaidi.
Utafiti wa Uondoaji
Utafiti wa uondoaji ulithibitisha ufanisi wa MFA na MFA-KR. Faida zao za utendaji pia zilithibitishwa katika mbinu mbalimbali za kawaida za uwekaji 'encoding' wa nafasi.
Mtazamo
MFA inatoa maboresho muhimu kwa muundo rahisi, ikishughulikia kwa ufanisi kikwazo cha kumbukumbu katika hitimisho la LLM bila kuongeza utata wa ziada wa uhandisi. Inaunganishwa kwa urahisi katika mfumo wa 'Transformer' uliopo, ikiharakisha matumizi ya LLMs katika matukio mbalimbali.