- Published on
Usanifu Mpya wa Titan wa Google Wavunja Kizuizi cha Kumbukumbu cha Transformer
Utangulizi wa Titan: Usanifu Mpya Kutoka Google
Ulimwengu wa teknolojia unazungumzia kuhusu Titan, usanifu mpya unaojitokeza kutoka Google. Imeundwa kupinga mapungufu ya mifumo ya Transformer, haswa jinsi inavyoshughulikia kumbukumbu. Usanifu huu mpya unazidi kupata umaarufu kama mrithi anayeweza wa Transformer, haswa kutokana na kuandaliwa kwake na timu ndani ya Google.
Changamoto ya Kumbukumbu Katika Mifumo Iliyopo
Mifumo ya kitamaduni kama LSTM na Transformer, ingawa ni ya ubunifu, inakabiliwa na changamoto katika kuiga kumbukumbu ya binadamu. Changamoto hizi ni pamoja na:
- Uwezo Mdogo: Data mara nyingi hukandamizwa kwenye hali iliyofichwa ya ukubwa maalum, ikizuia kiwango cha habari kinachoweza kuhifadhiwa.
- Gharama ya Kikokotozi: Ingawa ina uwezo wa kukamata utegemezi wa muda mrefu, gharama ya kikokotozi huongezeka kwa kiwango cha mraba na urefu wa mfuatano, na kuifanya isiwe na ufanisi kwa mifuatano mirefu sana.
- Kutegemea Data ya Mafunzo Kupita Kiasi: Kukariri tu data ya mafunzo hakusaidii kila wakati katika matumizi ya ulimwengu halisi, ambapo data ya majaribio inaweza kuanguka nje ya usambazaji wa mafunzo.
Mbinu ya Titan: Moduli ya Kumbukumbu Iliyoongozwa na Neura
Timu ya Titan imechukua mbinu tofauti, ikitafuta kuweka habari katika vigezo vya mtandao wa neva. Wameunda meta-mfumo wa mtandaoni ulioundwa kujifunza jinsi ya kukumbuka na kusahau data maalum wakati wa majaribio. Mfumo huu umeongozwa na kanuni za kisaikolojia ya neva, ukijumuisha vipengele muhimu vifuatavyo:
- Mshangao kama Kichocheo: Matukio yasiyotarajiwa hukumbukwa kwa urahisi zaidi. "Mshangao" hupimwa na gradient ya ingizo kwa moduli ya kumbukumbu. Kadiri gradient inavyokuwa kubwa, ndivyo ingizo linavyokuwa lisilotarajiwa.
- Mbinu za Kasi na Kusahau: Mbinu ya kasi hukusanya mshangao wa muda mfupi katika kumbukumbu ya muda mrefu, huku mbinu ya kusahau inafuta kumbukumbu za zamani, ikizuia kufurika kwa kumbukumbu.
- Kumbukumbu Inayotegemea Multi-Layer Perceptron (MLP): Moduli ya kumbukumbu inaundwa na tabaka nyingi za MLP, ikiruhusu kuhifadhi miundo mikuu ya kina ya data, na kuifanya kuwa na nguvu zaidi kuliko kumbukumbu za jadi zinazotegemea matrix.
Mbinu hii ya meta-kujifunza mtandaoni husaidia mfumo kuzingatia kujifunza jinsi ya kuzoea data mpya, badala ya kukariri tu data ya mafunzo. Moduli pia imeundwa kwa hesabu sambamba, na kuongeza ufanisi wake.
Kuunganisha Moduli ya Kumbukumbu Katika Usanifu wa Kujifunza kwa Kina
Timu ya utafiti ya Titan ilipendekeza tofauti tatu za kuunganisha moduli yao ya kumbukumbu katika usanifu wa kujifunza kwa kina:
- MAC (Kumbukumbu kama Muktadha): Njia hii inachanganya kumbukumbu ya muda mrefu na endelevu (ambayo huweka maarifa ya kazi) kama muktadha ambao ni ingizo kwa utaratibu wa umakini.
- MAG (Kumbukumbu kama Lango): Njia hii hutumia muunganiko wa lango wa moduli ya kumbukumbu na utaratibu wa umakini wa dirisha linaloteleza katika matawi mawili.
- MAL (Kumbukumbu kama Tabaka): Hapa, moduli ya kumbukumbu hutekelezwa kama tabaka huru ambayo hukandamiza habari za kihistoria kabla ya kuilisha kwa utaratibu wa umakini.
Timu iligundua kuwa kila tofauti ina nguvu na udhaifu wake.
Utendaji na Faida za Titan
Titan imeonyesha utendaji bora katika majukumu mbalimbali, pamoja na uundaji wa lugha, hoja ya kawaida, na utabiri wa mfuatano wa wakati. Imezidi mifumo ya kisasa kama Transformer na Mamba. Hasa, moduli ya kumbukumbu ya muda mrefu (LMM) pekee imefanya vizuri kuliko mifumo ya msingi katika majukumu kadhaa, ikionyesha uwezo wake wa kujifunza kwa kujitegemea bila kumbukumbu ya muda mfupi (umakini).
Katika jaribio la "sindano kwenye nyasi" lililoandaliwa kutafuta dalili nzuri katika maandishi marefu, Titan ilidumisha usahihi wa karibu 90% hata urefu wa mfuatano ulipoongezeka kutoka 2k hadi 16k. Timu inaonyesha kwamba majaribio ya kawaida hayaonyeshi kikamilifu faida za Titan katika kushughulikia maandishi marefu. Titan pia ilifanya vizuri kuliko mifumo kama GPT4, Mamba, na hata Llama3.1 na RAG katika kazi inayohitaji hitimisho kutoka kwa ukweli ulioenea katika hati ndefu sana.
Titan imeonyesha utendaji wa kuvutia katika maeneo maalum kama vile utabiri wa mfuatano wa wakati na uundaji wa mfuatano wa DNA pia.
Timu Iliyo Nyuma ya Titan
Utafiti huo ulifanywa na timu kutoka kundi la algoriti na uboreshaji la Google Research NYC, ambalo kwa sasa haliko sehemu ya Google DeepMind.
- Ali Behrouz, mwanafunzi wa chuo kikuu cha Cornell, ndiye mwandishi wa kwanza wa karatasi hiyo.
- Zhong Peilin, mhitimu wa Chuo Kikuu cha Tsinghua na mhitimu wa Ph.D. kutoka Chuo Kikuu cha Columbia, ni mwanasayansi wa utafiti katika Google tangu 2021. Anajulikana kwa kuchapisha karatasi ya mwandishi wa kwanza katika STOC 2016 kama mwanafunzi wa shahada ya kwanza.
- Vahab Mirrokni, Google Fellow na VP, anaongoza timu.
Timu ilitengeneza Titan kwa kutumia Pytorch na Jax na wanapanga kutoa msimbo wa mafunzo na tathmini hivi karibuni.