- Published on
गूगल का टाइटन आर्किटेक्चर ट्रांसफॉर्मर मेमोरी बॉटलनेक को तोड़ता है
गूगल का नया आर्किटेक्चर: टाइटन
तकनीकी दुनिया में गूगल से उभर रहे एक नए आर्किटेक्चर, टाइटन को लेकर चर्चा हो रही है। यह विशेष रूप से ट्रांसफॉर्मर मॉडल की मेमोरी को संभालने के तरीके में उनकी सीमाओं को चुनौती देने के लिए डिज़ाइन किया गया है। इस नए आर्किटेक्चर को ट्रांसफॉर्मर के संभावित उत्तराधिकारी के रूप में महत्वपूर्ण ध्यान मिल रहा है, खासकर गूगल के भीतर एक टीम द्वारा इसके विकास को देखते हुए।
मौजूदा मॉडलों में मेमोरी चुनौती
एलएसटीएम और ट्रांसफॉर्मर जैसे पारंपरिक मॉडल, जबकि अभिनव हैं, मानव जैसी मेमोरी के अनुकरण में चुनौतियों का सामना करते हैं। इन चुनौतियों में शामिल हैं:
- सीमित क्षमता: डेटा को अक्सर एक निश्चित आकार की छिपी स्थिति में संकुचित किया जाता है, जिससे जानकारी की मात्रा सीमित हो जाती है जिसे बनाए रखा जा सकता है।
- कम्प्यूटेशनल ओवरहेड: लंबी दूरी की निर्भरताओं को कैप्चर करने में सक्षम होने के बावजूद, कम्प्यूटेशनल लागत अनुक्रम लंबाई के साथ चतुष्कोणीय रूप से बढ़ती है, जिससे यह बहुत लंबे अनुक्रमों के लिए अक्षम हो जाता है।
- प्रशिक्षण डेटा पर अत्यधिक निर्भरता: केवल प्रशिक्षण डेटा को याद रखना हमेशा वास्तविक दुनिया के अनुप्रयोग में मदद नहीं करता है, जहां परीक्षण डेटा प्रशिक्षण वितरण से बाहर आ सकता है।
टाइटन का दृष्टिकोण: एक न्यूरो-प्रेरित मेमोरी मॉड्यूल
टाइटन टीम ने एक अलग दृष्टिकोण अपनाया है, जो एक न्यूरल नेटवर्क के मापदंडों में जानकारी को एन्कोड करने की मांग करता है। उन्होंने एक ऑनलाइन मेटा-मॉडल विकसित किया है जिसे परीक्षण के दौरान विशिष्ट डेटा को याद रखने और भूलने का तरीका सीखने के लिए डिज़ाइन किया गया है। यह मॉडल न्यूरो-मनोवैज्ञानिक सिद्धांतों से प्रेरित है, जिसमें निम्नलिखित प्रमुख तत्व शामिल हैं:
- आश्चर्य एक ट्रिगर के रूप में: अप्रत्याशित घटनाओं को अधिक आसानी से याद किया जाता है। "आश्चर्य" को मेमोरी मॉड्यूल के इनपुट के ग्रेडिएंट द्वारा मापा जाता है। ग्रेडिएंट जितना बड़ा होगा, इनपुट उतना ही अप्रत्याशित होगा।
- गति और भूलने के तंत्र: एक गति तंत्र अल्पकालिक आश्चर्य को दीर्घकालिक मेमोरी में जमा करता है, जबकि एक भूलने का तंत्र पुरानी यादों को मिटा देता है, जिससे मेमोरी ओवरफ्लो को रोका जा सकता है।
- मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) आधारित मेमोरी: मेमोरी मॉड्यूल कई एमएलपी परतों से बना है, जिससे यह डेटा के गहरे सार को संग्रहीत कर सकता है, जिससे यह पारंपरिक मैट्रिक्स-आधारित यादों की तुलना में अधिक शक्तिशाली हो जाता है।
यह ऑनलाइन मेटा-लर्निंग दृष्टिकोण मॉडल को केवल प्रशिक्षण डेटा को याद रखने के बजाय, नए डेटा के अनुकूल होने का तरीका सीखने पर ध्यान केंद्रित करने में मदद करता है। मॉड्यूल को समानांतर गणना के लिए भी डिज़ाइन किया गया है, जिससे इसकी दक्षता में वृद्धि होती है।
डीप लर्निंग आर्किटेक्चर में मेमोरी मॉड्यूल का एकीकरण
टाइटन अनुसंधान टीम ने अपने मेमोरी मॉड्यूल को डीप लर्निंग आर्किटेक्चर में शामिल करने के लिए तीन विविधताओं का प्रस्ताव दिया:
- MAC (संदर्भ के रूप में मेमोरी): यह विधि दीर्घकालिक और लगातार मेमोरी (जो कार्य ज्ञान को एन्कोड करती है) को संदर्भ के रूप में जोड़ती है जो ध्यान तंत्र के लिए इनपुट है।
- MAG (गेट के रूप में मेमोरी): यह दृष्टिकोण दो शाखाओं में एक स्लाइडिंग विंडो ध्यान तंत्र के साथ मेमोरी मॉड्यूल के गेटेड संलयन का उपयोग करता है।
- MAL (लेयर के रूप में मेमोरी): यहां, मेमोरी मॉड्यूल को एक स्वतंत्र परत के रूप में लागू किया गया है जो ध्यान तंत्र को खिलाने से पहले ऐतिहासिक जानकारी को संकुचित करता है।
टीम ने पाया कि प्रत्येक भिन्नता की अपनी ताकत और कमजोरियां हैं।
टाइटन का प्रदर्शन और लाभ
टाइटन ने भाषा मॉडलिंग, सामान्य ज्ञान तर्क और समय-श्रृंखला भविष्यवाणी सहित विभिन्न कार्यों में बेहतर प्रदर्शन दिखाया है। इसने ट्रांसफॉर्मर और मम्बा जैसे अत्याधुनिक मॉडलों को पीछे छोड़ दिया है। विशेष रूप से, दीर्घकालिक मेमोरी मॉड्यूल (एलएमएम) अकेले ही कई कार्यों में बेसलाइन मॉडल से बेहतर प्रदर्शन किया है, जो अल्पकालिक मेमोरी (ध्यान) के बिना अपनी स्वतंत्र सीखने की क्षमताओं को प्रदर्शित करता है।
एक "घास के ढेर में सुई" परीक्षण में जो लंबे ग्रंथों में बारीक सुराग खोजने के लिए डिज़ाइन किया गया था, टाइटन ने लगभग 90% सटीकता बनाए रखी, भले ही अनुक्रम की लंबाई 2k से बढ़कर 16k हो गई। टीम का कहना है कि मानक परीक्षण लंबे ग्रंथों को संभालने में टाइटन के लाभों को पूरी तरह से प्रदर्शित नहीं करते हैं। टाइटन ने जीपीटी4, मम्बा और यहां तक कि लामा3.1 जैसे मॉडलों को भी आरएजी के साथ एक ऐसे कार्य में बेहतर प्रदर्शन किया जिसमें बेहद लंबे दस्तावेजों में फैले तथ्यों से अनुमान लगाने की आवश्यकता थी।
टाइटन ने समय-श्रृंखला भविष्यवाणी और डीएनए अनुक्रम मॉडलिंग जैसे विशिष्ट क्षेत्रों में भी प्रभावशाली प्रदर्शन दिखाया है।
टाइटन के पीछे की टीम
यह शोध गूगल रिसर्च एनवाईसी एल्गोरिदम और अनुकूलन समूह की एक टीम द्वारा किया गया था, जो वर्तमान में गूगल डीपमाइंड का हिस्सा नहीं है।
कॉर्नेल विश्वविद्यालय के इंटर्न अली बेहरुज इस पेपर के पहले लेखक हैं।
त्सिंघुआ विश्वविद्यालय के पूर्व छात्र और कोलंबिया विश्वविद्यालय से पीएचडी स्नातक झोंग पेइलिन 2021 से गूगल में एक शोध वैज्ञानिक हैं। वह एक स्नातक छात्र के रूप में एसटीओसी 2016 में पहले लेखक का पेपर प्रकाशित करने के लिए उल्लेखनीय हैं।
गूगल फेलो और वीपी वहब मिर्रोकनी टीम का नेतृत्व करते हैं।
टीम ने पायटॉर्च और जैक्स का उपयोग करके टाइटन विकसित किया और जल्द ही प्रशिक्षण और मूल्यांकन के लिए कोड जारी करने की योजना है।