गूगलची टायटन आर्किटेक्चर ट्रान्सफॉर्मर मेमरी बॉटलनेक तोडते

गूगलचे नवीन टायटन आर्किटेक्चर

तंत्रज्ञानाच्या जगात, गूगलने 'टायटन' नावाचे एक नवीन आर्किटेक्चर सादर केले आहे. हे आर्किटेक्चर विशेषतः ट्रान्सफॉर्मर मॉडेलमध्ये असलेल्या मेमरी संबंधित मर्यादांना आव्हान देण्यासाठी तयार करण्यात आले आहे. गूगलच्या टीमने विकसित केल्यामुळे, हे नवीन तंत्रज्ञान ट्रान्सफॉर्मर मॉडेलचा उत्तराधिकारी म्हणून उदयास येत आहे.

विद्यमान मॉडेलमधील मेमरीची समस्या

पारंपरिक मॉडेल, जसे की LSTM आणि ट्रान्सफॉर्मर, मानवी मेंदू प्रमाणे मेमरी हाताळण्यात काही अडचणी येतात. त्यापैकी काही खालीलप्रमाणे आहेत:

मर्यादित क्षमता: डेटा एका निश्चित आकारात साठवला जातो, ज्यामुळे माहितीची साठवण क्षमता कमी होते.
गणितीय प्रक्रियांचा भार: लांबच्या डेटा संबंधांना समजून घेण्यास सक्षम असले तरी, डेटाची लांबी वाढल्यास गणितीय प्रक्रियांचा खर्च वाढतो.
प्रशिक्षण डेटावर जास्त अवलंबित्व: प्रशिक्षण डेटा लक्षात ठेवल्याने वास्तविक जगात उपयोग होत नाही, कारण चाचणी डेटा प्रशिक्षणाच्या बाहेरचा असू शकतो.

टायटनचा दृष्टीकोन: न्यूरो-प्रेरित मेमरी मॉड्यूल

टायटन टीमने माहिती न्यूरल नेटवर्कच्या पॅरामीटर्समध्ये एन्कोड करण्याचा एक वेगळा मार्ग निवडला आहे. त्यांनी एक ऑनलाइन मेटा-मॉडेल विकसित केले आहे, जे चाचणी दरम्यान विशिष्ट डेटा लक्षात ठेवण्यास आणि विसरण्यास शिकते. हे मॉडेल न्यूरो-सायकोलॉजिकल तत्त्वांवर आधारित आहे, ज्यात खालील मुख्य घटक आहेत:

आश्चर्य एक ट्रिगर: अनपेक्षित घटना अधिक सहजपणे लक्षात राहतात. 'आश्चर्य' मेमरी मॉड्यूलच्या इनपुटच्या ग्रेडियंटने मोजले जाते. ग्रेडियंट जितका मोठा, इनपुट तितकाच अनपेक्षित असतो.
गती आणि विसरण्याची यंत्रणा: एक गती यंत्रणा अल्पावधीतील आश्चर्यांना दीर्घकालीन मेमरीमध्ये रूपांतरित करते, तर विसरण्याची यंत्रणा जुन्या आठवणी पुसून टाकते, ज्यामुळे मेमरी ओव्हरफ्लो होत नाही.
MLP आधारित मेमरी: मेमरी मॉड्यूलमध्ये मल्टीपल MLP लेयर्स असतात, ज्यामुळे डेटाचे सखोल विश्लेषण साठवता येते, आणि हे पारंपरिक मॅट्रिक्स-आधारित मेमरीपेक्षा अधिक शक्तिशाली ठरते.

हे ऑनलाइन मेटा-लर्निंग मॉडेल, प्रशिक्षण डेटा लक्षात ठेवण्याऐवजी नवीन डेटाशी जुळवून घेण्यास मदत करते. हे मॉड्यूल समांतर गणनेसाठी देखील डिझाइन केलेले आहे, ज्यामुळे त्याची कार्यक्षमता वाढते.

डीप लर्निंग आर्किटेक्चरमध्ये मेमरी मॉड्यूलचे एकत्रीकरण

टायटन संशोधन टीमने त्यांच्या मेमरी मॉड्यूलला डीप लर्निंग आर्किटेक्चरमध्ये समाविष्ट करण्यासाठी तीन प्रकार प्रस्तावित केले आहेत:

MAC (मेमरी ॲज कॉन्टेक्स्ट): ही पद्धत दीर्घकालीन आणि स्थिर मेमरी (जी कार्याचे ज्ञान एन्कोड करते) एकत्र करते आणि अटेंशन मेकॅनिझममध्ये इनपुट म्हणून वापरते.
MAG (मेमरी ॲज गेट): हा दृष्टीकोन दोन शाखांमध्ये स्लाइडिंग विंडो अटेंशन मेकॅनिझमसह मेमरी मॉड्यूलचे गेटेड फ्यूजन वापरतो.
MAL (मेमरी ॲज लेयर): येथे, मेमरी मॉड्यूल एक स्वतंत्र लेयर म्हणून लागू केले जाते, जे अटेंशन मेकॅनिझमला देण्यापूर्वी ऐतिहासिक माहिती कॉम्प्रेस करते.

प्रत्येक प्रकाराचे स्वतःचे फायदे आणि तोटे आहेत, असे टीमला आढळले आहे.

टायटनची कार्यक्षमता आणि फायदे

टायटनने भाषा मॉडेलिंग, सामान्य ज्ञान आणि वेळेनुसार होणाऱ्या बदलांचा अंदाज यांसारख्या विविध कामांमध्ये उत्कृष्ट कामगिरी दर्शविली आहे. ट्रान्सफॉर्मर आणि मांबा सारख्या आधुनिक मॉडेल्सनाही टायटनने मागे टाकले आहे. विशेष म्हणजे, दीर्घकालीन मेमरी मॉड्यूल (LMM) ने अनेक कामांमध्ये बेसलाइन मॉडेल्सपेक्षा चांगली कामगिरी केली आहे, ज्यामुळे त्याची स्वतंत्रपणे शिकण्याची क्षमता दिसून येते.

लांब मजकुरात सूक्ष्म माहिती शोधण्यासाठी तयार केलेल्या "सुईच्या ढिगाऱ्यातील सुई" चाचणीत, टायटनने 2k ते 16k पर्यंत सिक्वेन्सची लांबी वाढल्यावरही सुमारे 90% अचूकता राखली. टीमने सांगितले की, मानक चाचण्या टायटनचे लांब मजकूर हाताळण्याचे फायदे पूर्णपणे दर्शवत नाहीत. टायटनने GPT4, मांबा आणि RAG सह Llama3.1 पेक्षाही लांब डॉक्युमेंट्समधील माहिती काढण्याच्या कार्यात चांगली कामगिरी केली आहे.

टायटनने वेळेनुसार होणाऱ्या बदलांचा अंदाज आणि DNA सिक्वेन्स मॉडेलिंगमध्येही प्रभावी कामगिरी केली आहे.

टायटनच्या मागे असलेली टीम

हे संशोधन गूगल रिसर्च NYC अल्गोरिदम आणि ऑप्टिमायझेशन ग्रुपमधील टीमने केले आहे, जी सध्या गूगल डीपमाइंडचा भाग नाही.

अली बेहरोझ, कॉर्नेल विद्यापीठातील इंटर्न, या पेपरचे पहिले लेखक आहेत.

झोंग पेइलिन, त्सिंगहुआ विद्यापीठाचे माजी विद्यार्थी आणि कोलंबिया विद्यापीठातून पीएचडी पदवीधर आहेत, जे 2021 पासून गूगलमध्ये रिसर्च सायंटिस्ट म्हणून कार्यरत आहेत. त्यांनी एक अंडरग्रेजुएट विद्यार्थी म्हणून STOC 2016 मध्ये पहिला लेखक म्हणून पेपर प्रकाशित केला होता.

वहाब मिर्रोकनी, एक गूगल फेलो आणि VP, टीमचे नेतृत्व करतात.

टीमने पायटॉर्च आणि जॅक्स वापरून टायटन विकसित केले आहे आणि लवकरच प्रशिक्षण आणि मूल्यांकनासाठी कोड जारी करण्याची योजना आहे.