Published on

गूगल का टाइटन आर्किटेक्चर ट्रांसफॉर्मर मेमोरी बॉटलनेक को तोड़ता है

लेखक
  • avatar
    नाम
    Ajax
    Twitter

गूगल का नया आर्किटेक्चर: टाइटन

तकनीकी दुनिया में गूगल से उभर रहे एक नए आर्किटेक्चर, टाइटन को लेकर चर्चा हो रही है। यह विशेष रूप से ट्रांसफॉर्मर मॉडल की मेमोरी को संभालने के तरीके में उनकी सीमाओं को चुनौती देने के लिए डिज़ाइन किया गया है। इस नए आर्किटेक्चर को ट्रांसफॉर्मर के संभावित उत्तराधिकारी के रूप में महत्वपूर्ण ध्यान मिल रहा है, खासकर गूगल के भीतर एक टीम द्वारा इसके विकास को देखते हुए।

मौजूदा मॉडलों में मेमोरी चुनौती

एलएसटीएम और ट्रांसफॉर्मर जैसे पारंपरिक मॉडल, जबकि अभिनव हैं, मानव जैसी मेमोरी के अनुकरण में चुनौतियों का सामना करते हैं। इन चुनौतियों में शामिल हैं:

  • सीमित क्षमता: डेटा को अक्सर एक निश्चित आकार की छिपी स्थिति में संकुचित किया जाता है, जिससे जानकारी की मात्रा सीमित हो जाती है जिसे बनाए रखा जा सकता है।
  • कम्प्यूटेशनल ओवरहेड: लंबी दूरी की निर्भरताओं को कैप्चर करने में सक्षम होने के बावजूद, कम्प्यूटेशनल लागत अनुक्रम लंबाई के साथ चतुष्कोणीय रूप से बढ़ती है, जिससे यह बहुत लंबे अनुक्रमों के लिए अक्षम हो जाता है।
  • प्रशिक्षण डेटा पर अत्यधिक निर्भरता: केवल प्रशिक्षण डेटा को याद रखना हमेशा वास्तविक दुनिया के अनुप्रयोग में मदद नहीं करता है, जहां परीक्षण डेटा प्रशिक्षण वितरण से बाहर आ सकता है।

टाइटन का दृष्टिकोण: एक न्यूरो-प्रेरित मेमोरी मॉड्यूल

टाइटन टीम ने एक अलग दृष्टिकोण अपनाया है, जो एक न्यूरल नेटवर्क के मापदंडों में जानकारी को एन्कोड करने की मांग करता है। उन्होंने एक ऑनलाइन मेटा-मॉडल विकसित किया है जिसे परीक्षण के दौरान विशिष्ट डेटा को याद रखने और भूलने का तरीका सीखने के लिए डिज़ाइन किया गया है। यह मॉडल न्यूरो-मनोवैज्ञानिक सिद्धांतों से प्रेरित है, जिसमें निम्नलिखित प्रमुख तत्व शामिल हैं:

  • आश्चर्य एक ट्रिगर के रूप में: अप्रत्याशित घटनाओं को अधिक आसानी से याद किया जाता है। "आश्चर्य" को मेमोरी मॉड्यूल के इनपुट के ग्रेडिएंट द्वारा मापा जाता है। ग्रेडिएंट जितना बड़ा होगा, इनपुट उतना ही अप्रत्याशित होगा।
  • गति और भूलने के तंत्र: एक गति तंत्र अल्पकालिक आश्चर्य को दीर्घकालिक मेमोरी में जमा करता है, जबकि एक भूलने का तंत्र पुरानी यादों को मिटा देता है, जिससे मेमोरी ओवरफ्लो को रोका जा सकता है।
  • मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) आधारित मेमोरी: मेमोरी मॉड्यूल कई एमएलपी परतों से बना है, जिससे यह डेटा के गहरे सार को संग्रहीत कर सकता है, जिससे यह पारंपरिक मैट्रिक्स-आधारित यादों की तुलना में अधिक शक्तिशाली हो जाता है।

यह ऑनलाइन मेटा-लर्निंग दृष्टिकोण मॉडल को केवल प्रशिक्षण डेटा को याद रखने के बजाय, नए डेटा के अनुकूल होने का तरीका सीखने पर ध्यान केंद्रित करने में मदद करता है। मॉड्यूल को समानांतर गणना के लिए भी डिज़ाइन किया गया है, जिससे इसकी दक्षता में वृद्धि होती है।

डीप लर्निंग आर्किटेक्चर में मेमोरी मॉड्यूल का एकीकरण

टाइटन अनुसंधान टीम ने अपने मेमोरी मॉड्यूल को डीप लर्निंग आर्किटेक्चर में शामिल करने के लिए तीन विविधताओं का प्रस्ताव दिया:

  1. MAC (संदर्भ के रूप में मेमोरी): यह विधि दीर्घकालिक और लगातार मेमोरी (जो कार्य ज्ञान को एन्कोड करती है) को संदर्भ के रूप में जोड़ती है जो ध्यान तंत्र के लिए इनपुट है।
  2. MAG (गेट के रूप में मेमोरी): यह दृष्टिकोण दो शाखाओं में एक स्लाइडिंग विंडो ध्यान तंत्र के साथ मेमोरी मॉड्यूल के गेटेड संलयन का उपयोग करता है।
  3. MAL (लेयर के रूप में मेमोरी): यहां, मेमोरी मॉड्यूल को एक स्वतंत्र परत के रूप में लागू किया गया है जो ध्यान तंत्र को खिलाने से पहले ऐतिहासिक जानकारी को संकुचित करता है।

टीम ने पाया कि प्रत्येक भिन्नता की अपनी ताकत और कमजोरियां हैं।

टाइटन का प्रदर्शन और लाभ

टाइटन ने भाषा मॉडलिंग, सामान्य ज्ञान तर्क और समय-श्रृंखला भविष्यवाणी सहित विभिन्न कार्यों में बेहतर प्रदर्शन दिखाया है। इसने ट्रांसफॉर्मर और मम्बा जैसे अत्याधुनिक मॉडलों को पीछे छोड़ दिया है। विशेष रूप से, दीर्घकालिक मेमोरी मॉड्यूल (एलएमएम) अकेले ही कई कार्यों में बेसलाइन मॉडल से बेहतर प्रदर्शन किया है, जो अल्पकालिक मेमोरी (ध्यान) के बिना अपनी स्वतंत्र सीखने की क्षमताओं को प्रदर्शित करता है।

एक "घास के ढेर में सुई" परीक्षण में जो लंबे ग्रंथों में बारीक सुराग खोजने के लिए डिज़ाइन किया गया था, टाइटन ने लगभग 90% सटीकता बनाए रखी, भले ही अनुक्रम की लंबाई 2k से बढ़कर 16k हो गई। टीम का कहना है कि मानक परीक्षण लंबे ग्रंथों को संभालने में टाइटन के लाभों को पूरी तरह से प्रदर्शित नहीं करते हैं। टाइटन ने जीपीटी4, मम्बा और यहां तक ​​कि लामा3.1 जैसे मॉडलों को भी आरएजी के साथ एक ऐसे कार्य में बेहतर प्रदर्शन किया जिसमें बेहद लंबे दस्तावेजों में फैले तथ्यों से अनुमान लगाने की आवश्यकता थी।

टाइटन ने समय-श्रृंखला भविष्यवाणी और डीएनए अनुक्रम मॉडलिंग जैसे विशिष्ट क्षेत्रों में भी प्रभावशाली प्रदर्शन दिखाया है।

टाइटन के पीछे की टीम

यह शोध गूगल रिसर्च एनवाईसी एल्गोरिदम और अनुकूलन समूह की एक टीम द्वारा किया गया था, जो वर्तमान में गूगल डीपमाइंड का हिस्सा नहीं है।

कॉर्नेल विश्वविद्यालय के इंटर्न अली बेहरुज इस पेपर के पहले लेखक हैं।

त्सिंघुआ विश्वविद्यालय के पूर्व छात्र और कोलंबिया विश्वविद्यालय से पीएचडी स्नातक झोंग पेइलिन 2021 से गूगल में एक शोध वैज्ञानिक हैं। वह एक स्नातक छात्र के रूप में एसटीओसी 2016 में पहले लेखक का पेपर प्रकाशित करने के लिए उल्लेखनीय हैं।

गूगल फेलो और वीपी वहब मिर्रोकनी टीम का नेतृत्व करते हैं।

टीम ने पायटॉर्च और जैक्स का उपयोग करके टाइटन विकसित किया और जल्द ही प्रशिक्षण और मूल्यांकन के लिए कोड जारी करने की योजना है।