- Published on
मेटा का BLT आर्किटेक्चर टोकनाइजेशन को समाप्त करता है
मेटा का बीएलटी आर्किटेक्चर: टोकनाइजेशन को खत्म करना
मेटा, शिकागो विश्वविद्यालय और अन्य संस्थानों के सहयोगियों के साथ, ने हाल ही में एक अभूतपूर्व पेपर प्रकाशित किया है जिसका शीर्षक है "बाइट लेटेंट ट्रांसफार्मर: पैच टोकन से बेहतर स्केल करते हैं।" इस शोध ने विशेष रूप से हैकर न्यूज़ जैसे प्लेटफार्मों पर काफी चर्चा छेड़ दी है। मुख्य अवधारणा भाषा मॉडल के लिए एक नए दृष्टिकोण के इर्द-गिर्द घूमती है जो संभावित रूप से पारंपरिक टोकनाइजेशन प्रक्रिया को बदल सकती है। उत्साह स्पष्ट है, कुछ शोधकर्ता टोकननाइज़र से आगे बढ़ने के लिए उत्सुकता व्यक्त कर रहे हैं। हालांकि, इस नई तकनीक को एकीकृत करने की व्यवहार्यता के बारे में भी चिंता है, यह देखते हुए कि टोकनाइजेशन कई मौजूदा मॉडलों की नींव है।
टोकनाइजेशन के साथ समस्या
पारंपरिक भाषा मॉडल डेटा को प्रीप्रोसेस करने के लिए टोकनाइजेशन पर निर्भर करते हैं। हालांकि, इस पद्धति की कई सीमाएं हैं। इनमें शामिल हैं:
- एक निश्चित शब्दावली आकार, जो सभी भाषाओं या संदर्भों के लिए पर्याप्त नहीं हो सकता है।
- बहुभाषी या शोर वाले डेटा को संसाधित करने में अक्षमताएं।
- संपीड़न हेयूरिस्टिक्स के कारण पूर्वाग्रहों की शुरूआत।
बाइट लेटेंट ट्रांसफार्मर (BLT)
शोध बाइट लेटेंट ट्रांसफार्मर (बीएलटी) को एक समाधान के रूप में पेश करता है जो पारंपरिक टोकनाइजेशन दृष्टिकोण को चुनौती देता है। टोकन के साथ काम करने के बजाय, बीएलटी सीधे कच्चे बाइट स्ट्रीम को मॉडल करता है। यह गतिशील रूप से इन बाइट्स को उनकी एन्ट्रापी के आधार पर पैच में समूहित करता है, जिससे कम्प्यूटेशनल दक्षता का अनुकूलन होता है। इसका मतलब है कि बीएलटी स्थैतिक शब्दावली पर भरोसा किए बिना सीधे मूल बाइट डेटा से सीख सकता है। बीएलटी को विविध और शोर वाले इनपुट को अधिक प्रभावी ढंग से संभालने के लिए डिज़ाइन किया गया है।
बीएलटी की प्रमुख विशेषताओं में शामिल हैं:
- एन्ट्रापी-आधारित पैचिंग: बीएलटी गतिशील रूप से बाइट्स को उनकी सूचना जटिलता के आधार पर पैच में समूहित करता है। यह दृष्टिकोण उच्च-एन्ट्रापी (जटिल) क्षेत्रों में अधिक कम्प्यूटेशनल संसाधन आवंटित करता है और कम-एन्ट्रापी क्षेत्रों में संसाधनों को बचाता है।
- कुशल स्केलिंग: बीएलटी पैच आकार को अनुकूलित करता है और हल्के स्थानीय मॉडल का उपयोग करता है, जो LLaMA जैसे टोकन-आधारित मॉडल के बराबर या उससे बेहतर प्रदर्शन प्राप्त करता है। यह अनुमान के दौरान कम्प्यूटेशनल लागत को 50% तक कम करता है।
- मजबूती और लचीलापन: बीएलटी उन कार्यों में असाधारण प्रदर्शन प्रदर्शित करता है जिनके लिए चरित्र-स्तरीय समझ, शोर वाले इनपुट को संभालने या लंबी-पूंछ वाले डेटा को सामान्य बनाने की आवश्यकता होती है, कई बेंचमार्क में टोकन-आधारित आर्किटेक्चर को पार करते हैं।
बीएलटी आर्किटेक्चर
बीएलटी आर्किटेक्चर में शामिल हैं:
- एक बड़ा वैश्विक ऑटोरेग्रेसिव भाषा मॉडल जो पैच प्रतिनिधित्व पर संचालित होता है।
- दो छोटे स्थानीय मॉडल जो बाइट अनुक्रमों को पैच में एन्कोड करते हैं और पैच प्रतिनिधित्व को वापस बाइट्स में डिकोड करते हैं।
ग्लोबल लेटेंट ट्रांसफार्मर मॉडल
ग्लोबल लेटेंट ट्रांसफार्मर एक ऑटोरेग्रेसिव मॉडल है जो इनपुट पैच प्रतिनिधित्व को आउटपुट पैच प्रतिनिधित्व पर मैप करता है। यह एक ब्लॉक कॉज़ल अटेंशन मास्क का उपयोग करता है।
लोकल एनकोडर
स्थानीय एनकोडर मॉडल एक हल्का ट्रांसफार्मर-आधारित मॉडल है जो कुशलता से इनपुट बाइट अनुक्रमों को अभिव्यंजक पैच प्रतिनिधित्व पर मैप करता है। इसमें प्रत्येक ट्रांसफार्मर परत के बाद क्रॉस-अटेंशन परतें होती हैं, जो बाइट प्रतिनिधित्व को पैच प्रतिनिधित्व में पूल करती हैं।
- बाइट एम्बेडिंग: इनपुट बाइट अनुक्रमों को एक मैट्रिक्स का उपयोग करके एम्बेड किया जाता है।
- ट्रांसफार्मर परतें: ट्रांसफार्मर और क्रॉस-अटेंशन परतों की एक श्रृंखला एम्बेडिंग को पैच प्रतिनिधित्व में परिवर्तित करती है। इसमें एक स्थानीय ब्लॉक कॉज़ल अटेंशन मास्क शामिल है।
लोकल डिकोडर
स्थानीय डिकोडर एक और हल्का ट्रांसफार्मर-आधारित मॉडल है। यह वैश्विक पैच प्रतिनिधित्व को मूल बाइट्स में डिकोड करता है। यह क्रॉस-अटेंशन और ट्रांसफार्मर परतों की एक श्रृंखला का उपयोग करता है। यह पहले डिकोड किए गए बाइट्स के आधार पर मूल बाइट अनुक्रमों की भविष्यवाणी करने की अनुमति देता है।
स्केलिंग रुझान
अनुसंधान आगे बीएलटी मॉडल विकास को सूचित करने के लिए बाइट-स्तरीय मॉडल के स्केलिंग रुझानों की पड़ताल करता है। इसमें शामिल है:
- कम्प्यूटेशनल रूप से इष्टतम प्रशिक्षण योजनाओं में रुझानों की तुलना करना।
- बड़े डेटासेट पर 8B पैरामीटर मॉडल को प्रशिक्षित करना और डाउनस्ट्रीम कार्यों पर प्रदर्शन का मूल्यांकन करना।
- अनुमान लागत-नियंत्रित सेटिंग्स में स्केलिंग रुझानों को मापना।
पैरामीटर-मिलान कम्प्यूटेशनल रूप से इष्टतम स्केलिंग रुझान
Llama 2 डेटासेट का उपयोग करते हुए, शोधकर्ताओं ने कम्प्यूटेशनल रूप से इष्टतम सेटिंग्स के साथ विभिन्न आकारों (1B से 8B पैरामीटर) के BPE और BLT मॉडल को प्रशिक्षित किया। प्रशिक्षण फ्लॉप को भाषा मॉडलिंग प्रदर्शन के विरुद्ध प्लॉट किया गया था। बीएलटी मॉडल या तो बीपीई मॉडल से मेल खाते हैं या उनसे बेहतर प्रदर्शन करते हैं, और यह प्रवृत्ति मॉडल के आकार और फ्लॉप बढ़ने के साथ बनी रही।
BLT-1T डेटासेट
एक 8B पैरामीटर BLT मॉडल को एक बड़े उच्च-गुणवत्ता वाले डेटासेट, BLT-1T पर प्रशिक्षित किया गया था। परिणामों से पता चला कि BLT-एंट्रॉपी मॉडल ने 7 में से 4 कार्यों पर Llama 3 मॉडल को बेहतर प्रदर्शन किया। यह सुधार गतिशील पैच का उपयोग करके प्रशिक्षण संगणना के बेहतर उपयोग और टोकन के बजाय बाइट-स्तरीय जानकारी को मॉडलिंग करने के कारण है।
पैच स्केलिंग
शोध में बताया गया है कि पैच टोकन की तुलना में आसान स्केल करते हैं। पैच लंबाई स्केलिंग पर अध्ययन से पता चलता है कि पैच-आधारित बीएलटी आर्किटेक्चर पैच और मॉडल दोनों आकार बढ़ाकर बेहतर स्केलिंग रुझान प्राप्त कर सकता है।
बाइट मॉडलिंग के माध्यम से मजबूती
चरित्र-स्तरीय कार्य
बीएलटी मॉडल शोरगुल वाले हेलासवाग परीक्षणों में बेहतर मजबूती प्रदर्शित करता है, जो टोकननाइज़र-आधारित मॉडल से औसतन 8 प्रतिशत अंक अधिक है। इसने बड़े डेटासेट पर प्रशिक्षित Llama 3.1 मॉडल को भी बेहतर प्रदर्शन किया।
कम-संसाधन भाषाएं
बीएलटी लोकप्रिय भाषा जोड़े में Llama 3 की तुलना में तुलनीय या थोड़ा बेहतर प्रदर्शन करता है। हालांकि, यह कम-संसाधन भाषा जोड़ों में Llama 3 को काफी हद तक पार कर जाता है, जो लंबी-पूंछ वाले बाइट अनुक्रमों को सामान्य बनाने में बाइट मॉडलिंग की प्रभावशीलता को दर्शाता है।
Llama 3 से BLT तक
लेखकों ने एक वर्कफ़्लो की जाँच की जहाँ BLT मॉडल प्रीट्रेन्ड टोकननाइज़र-आधारित मॉडल का उपयोग कर सकते हैं। यह प्रीट्रेन्ड Llama 3.1 के साथ BLT के वैश्विक टोकननाइज़र मापदंडों को शुरू करके किया गया था। परिणामों से पता चला कि Llama 3.1 के साथ शुरू किए गए BLT ने समान संख्या में फ्लॉप के साथ प्रशिक्षित Llama 3 और बेसलाइन BLT मॉडल दोनों को बेहतर प्रदर्शन किया।