Published on

मेटाचे BLT आर्किटेक्चर टोकनायझेशन संपवते

लेखक
  • avatar
    नाव
    Ajax
    Twitter

मेटाचे BLT आर्किटेक्चर: टोकनायझेशनची गरज नाही

मेटाने शिकागो विद्यापीठातील संशोधकांच्या मदतीने 'बाइट लेटेंट ट्रान्सफॉर्मर: पॅचेस स्केल बेटर दॅन टोकन्स' नावाचे एक नवीन संशोधन प्रकाशित केले आहे. हे संशोधन भाषिक मॉडेलमध्ये टोकनायझेशनच्या पारंपरिक पद्धतीला आव्हान देते. या नवीन दृष्टिकोनमुळे अनेक संशोधक उत्साहित आहेत, कारण ते टोकनायझरच्या पलीकडे जाण्यास उत्सुक आहेत. मात्र, टोकनायझेशनवर आधारित असलेल्या सध्याच्या मॉडेलमध्ये हे तंत्रज्ञान वापरणे किती सोपे आहे, याबद्दल चिंता व्यक्त केली जात आहे.

टोकनायझेशनची समस्या

पारंपरिक भाषिक मॉडेल डेटा तयार करण्यासाठी टोकनायझेशनचा वापर करतात. मात्र, या पद्धतीत काही मर्यादा आहेत:

  • निश्चित शब्दसंग्रह: सर्व भाषा किंवा संदर्भांसाठी पुरेसा नसलेला शब्दसंग्रह असतो.
  • बहुभाषिक डेटा: बहुभाषिक किंवा गोंगाटयुक्त डेटा हाताळण्यात अक्षमता येते.
  • पूर्वाग्रह: डेटा कॉम्प्रेस करताना त्रुटी निर्माण होऊन मॉडेलमध्ये पूर्वग्रह येऊ शकतात.

बाइट लेटेंट ट्रान्सफॉर्मर (BLT)

बाइट लेटेंट ट्रान्सफॉर्मर (BLT) हे टोकनायझेशनला पर्याय म्हणून सादर केले आहे. टोकन्सऐवजी, BLT थेट बाइट स्ट्रीम्सवर काम करते. हे बाइट्स त्यांच्या एन्ट्रॉपीनुसार गतिशीलपणे गटबद्ध करते, ज्यामुळे संगणकीय कार्यक्षमता सुधारते. याचा अर्थ BLT स्थिर शब्दसंग्रहावर अवलंबून न राहता मूळ बाइट डेटावरून शिकू शकते. BLT विविध आणि गोंगाटयुक्त इनपुट अधिक प्रभावीपणे हाताळण्यासाठी तयार केले आहे.

BLT ची मुख्य वैशिष्ट्ये:

  • एन्ट्रॉपी-आधारित पॅचिंग: BLT माहितीच्या जटिलतेनुसार बाइट्सचे गट बनवते. उच्च-एन्ट्रॉपी (जटिल) क्षेत्रांना अधिक संसाधने दिली जातात आणि कमी-एन्ट्रॉपी क्षेत्रांमध्ये संसाधने वाचविली जातात.
  • कार्यक्षम स्केलिंग: BLT पॅच आकार ऑप्टिमाइझ करते आणि LLaMA सारख्या टोकन-आधारित मॉडेलच्या तुलनेत चांगले कार्यप्रदर्शन करते. तसेच, अनुमान दरम्यान संगणकीय खर्च 50% पर्यंत कमी होतो.
  • मजबुती आणि लवचिकता: BLT वर्ण-स्तरावरील आकलन, गोंगाटयुक्त इनपुट हाताळणे किंवा लांब-शेपटीच्या डेटामध्ये सामान्यीकरण करणे यांसारख्या कामांमध्ये उत्कृष्ट कामगिरी करते.

BLT आर्किटेक्चर

BLT आर्किटेक्चरमध्ये खालील गोष्टींचा समावेश आहे:

  1. मोठे जागतिक ऑटोरेग्रेसिव्ह भाषिक मॉडेल: हे पॅच प्रतिनिधित्वांवर कार्य करते.
  2. दोन लहान स्थानिक मॉडेल: हे बाइट सिक्वेन्सला पॅचमध्ये एन्कोड करतात आणि पॅच प्रतिनिधित्वाला परत बाइटमध्ये डीकोड करतात.

जागतिक लेटेंट ट्रान्सफॉर्मर मॉडेल

जागतिक लेटेंट ट्रान्सफॉर्मर हे ऑटोरेग्रेसिव्ह मॉडेल आहे, जे इनपुट पॅच प्रतिनिधित्वाला आउटपुट पॅच प्रतिनिधित्वामध्ये रूपांतरित करते. हे ब्लॉक कारण अटेंशन मास्क वापरते.

स्थानिक एन्कोडर

स्थानिक एन्कोडर हे एक हलके ट्रान्सफॉर्मर-आधारित मॉडेल आहे, जे इनपुट बाइट सिक्वेन्सला प्रभावी पॅच प्रतिनिधित्वामध्ये रूपांतरित करते. यात प्रत्येक ट्रान्सफॉर्मर लेयरनंतर क्रॉस-अटेंशन लेयर्स असतात, जे बाइट प्रतिनिधित्वाला पॅच प्रतिनिधित्वात एकत्रित करतात.

  • बाइट एम्बेडिंग: इनपुट बाइट सिक्वेन्सला मॅट्रिक्स वापरून एम्बेड केले जाते.
  • ट्रान्सफॉर्मर लेयर्स: ट्रान्सफॉर्मर आणि क्रॉस-अटेंशन लेयर्सच्या मालिकेद्वारे एम्बेडिंग्ज पॅच प्रतिनिधित्वात रूपांतरित केले जातात. यात एक स्थानिक ब्लॉक कारण अटेंशन मास्क देखील असतो.

स्थानिक डिकोडर

स्थानिक डिकोडर हे दुसरे हलके ट्रान्सफॉर्मर-आधारित मॉडेल आहे. हे जागतिक पॅच प्रतिनिधित्वाला मूळ बाइटमध्ये डीकोड करते. हे क्रॉस-अटेंशन आणि ट्रान्सफॉर्मर लेयर्सची मालिका वापरते. यामुळे पूर्वी डीकोड केलेल्या बाइट्सवर आधारित मूळ बाइट सिक्वेन्सचा अंदाज लावता येतो.

स्केलिंग ट्रेंड

संशोधनात बाइट-स्तरीय मॉडेलच्या स्केलिंग ट्रेंडचा अभ्यास केला आहे, जे BLT मॉडेल विकासासाठी उपयुक्त आहेत. यामध्ये खालील गोष्टींचा समावेश आहे:

  • गणितीयदृष्ट्या इष्टतम प्रशिक्षण योजनांमधील ट्रेंडची तुलना.
  • मोठ्या डेटासेटवर 8B पॅरामीटर मॉडेल प्रशिक्षित करणे आणि डाउनस्ट्रीम कार्यांवर कार्यक्षमतेचे मूल्यांकन करणे.
  • अनुमान खर्चावर आधारित स्केलिंग ट्रेंड्सचे मापन करणे.

पॅरामीटर-जुळलेले गणितीयदृष्ट्या इष्टतम स्केलिंग ट्रेंड

Llama 2 डेटासेट वापरून, संशोधकांनी 1B ते 8B पॅरामीटर आकाराचे विविध BPE आणि BLT मॉडेल प्रशिक्षित केले. प्रशिक्षण फ्लॉप्सला भाषिक मॉडेलिंग कार्यक्षमतेच्या विरोधात प्लॉट केले. BLT मॉडेलने BPE मॉडेलपेक्षा चांगली कामगिरी केली आणि मॉडेल आकार आणि फ्लॉप्स वाढल्याने हा ट्रेंड कायम राहिला.

BLT-1T डेटासेट

8B पॅरामीटर BLT मॉडेलला BLT-1T नावाच्या मोठ्या उच्च-गुणवत्तेच्या डेटासेटवर प्रशिक्षित केले. निकालांमध्ये असे दिसून आले की BLT-एन्ट्रॉपी मॉडेलने 7 पैकी 4 कामांमध्ये Llama 3 मॉडेलपेक्षा चांगली कामगिरी केली. हे सुधारित प्रशिक्षण गणना, डायनॅमिक पॅच आणि टोकन्सऐवजी बाइट-स्तरीय माहिती मॉडेलिंगमुळे शक्य झाले.

पॅच स्केलिंग

संशोधनात असे दिसून आले आहे की पॅच टोकनपेक्षा अधिक सहजपणे स्केल करतात. पॅच-आधारित BLT आर्किटेक्चर पॅच आणि मॉडेल आकार वाढवून चांगले स्केलिंग ट्रेंड प्राप्त करू शकते.

बाइट मॉडेलिंगद्वारे मजबूतता

वर्ण-स्तरीय कार्ये

BLT मॉडेलने गोंगाटयुक्त HellaSwag चाचण्यांमध्ये उत्कृष्ट कार्यप्रदर्शन केले, जे टोकनायझर-आधारित मॉडेलपेक्षा सरासरी 8% अधिक चांगले होते. BLT ने मोठ्या डेटासेटवर प्रशिक्षित केलेल्या Llama 3.1 मॉडेललाही मागे टाकले.

कमी-संसाधन भाषा

BLT लोकप्रिय भाषा जोड्यांमध्ये Llama 3 च्या तुलनेत चांगली कामगिरी करते. मात्र, कमी-संसाधन भाषा जोड्यांमध्ये BLT ने Llama 3 पेक्षा खूप चांगली कामगिरी केली, ज्यामुळे लांब-शेपटीच्या बाइट सिक्वेन्समध्ये सामान्यीकरण करण्यासाठी बाइट मॉडेलिंगची प्रभावीता दिसून येते.

Llama 3 ते BLT

लेखकांनी एक कार्यप्रणाली तपासली, ज्यात BLT मॉडेल प्रीट्रेन्ड टोकनायझर-आधारित मॉडेल वापरू शकतात. यासाठी BLT च्या जागतिक टोकनायझर पॅरामीटर्सला प्रीट्रेन्ड Llama 3.1 ने सुरू केले. निकालांमध्ये असे दिसून आले की, Llama 3.1 ने सुरू केलेले BLT मॉडेल Llama 3 आणि समान फ्लॉप्ससह प्रशिक्षित केलेल्या बेसलाइन BLT मॉडेलपेक्षा अधिक चांगले ठरले.