- Published on
மெட்டாவின் BLT கட்டமைப்பு டோக்கனைசேஷனை நீக்குகிறது
அறிமுகம்
மெட்டா, சிகாகோ பல்கலைக்கழகம் மற்றும் பிற நிறுவனங்களின் ஒத்துழைப்பாளர்களுடன் இணைந்து, "பைட் லேட்டன்ட் டிரான்ஸ்ஃபார்மர்: பேட்சுகள் டோக்கன்களை விட சிறப்பாக அளவிடுகின்றன" என்ற தலைப்பில் ஒரு முன்னோடி ஆய்வறிக்கையை சமீபத்தில் வெளியிட்டுள்ளது. இந்த ஆராய்ச்சி, குறிப்பாக ஹேக்கர் நியூஸ் போன்ற தளங்களில், கணிசமான விவாதத்தைத் தூண்டியுள்ளது. பாரம்பரிய டோக்கனைசேஷன் செயல்முறையை மாற்றக்கூடிய மொழி மாதிரிகளுக்கான புதிய அணுகுமுறையை மையமாகக் கொண்டது. டோக்கனைசர்களைத் தாண்டிச் செல்ல சில ஆராய்ச்சியாளர்கள் ஆர்வத்துடன் இருப்பதால், உற்சாகம் அதிகமாக உள்ளது. இருப்பினும், டோக்கனைசேஷன் பல இருக்கும் மாதிரிகளின் அடித்தளமாக இருப்பதால், இந்த புதிய தொழில்நுட்பத்தை ஒருங்கிணைப்பதற்கான சாத்தியக்கூறுகள் குறித்து கவலை உள்ளது.
டோக்கனைசேஷனின் சிக்கல்
பாரம்பரிய மொழி மாதிரிகள் தரவை முன்கூட்டியே செயலாக்க டோக்கனைசேஷனை நம்பியுள்ளன. இருப்பினும், இந்த முறைக்கு பல வரம்புகள் உள்ளன. அவை பின்வருமாறு:
- நிலையான சொற்களஞ்சிய அளவு, இது எல்லா மொழிகளுக்கும் அல்லது சூழல்களுக்கும் போதுமானதாக இருக்காது.
- பல மொழி அல்லது சத்தமான தரவை செயலாக்குவதில் திறமையின்மை.
- சுருக்க யூகங்களால் ஏற்படும் சார்புகளின் அறிமுகம்.
பைட் லேட்டன்ட் டிரான்ஸ்ஃபார்மர் (BLT)
இந்த ஆராய்ச்சி, பாரம்பரிய டோக்கனைசேஷன் அணுகுமுறையை சவால் செய்யும் தீர்வாக பைட் லேட்டன்ட் டிரான்ஸ்ஃபார்மர் (BLT) அறிமுகப்படுத்துகிறது. டோக்கன்களுடன் பணிபுரிவதற்கு பதிலாக, BLT நேரடியாக மூல பைட் ஸ்ட்ரீம்களை மாதிரியாகக் கொண்டுள்ளது. கணக்கீட்டுத் திறனை மேம்படுத்த, இது அவற்றின் என்ட்ரோபியின் அடிப்படையில் இந்த பைட்டுகளை மாறும் வகையில் பேட்சுகளாகக் குழுவாக்குகிறது. அதாவது, BLT ஒரு நிலையான சொற்களஞ்சியத்தை நம்பாமல் அசல் பைட் தரவுகளிலிருந்து நேரடியாகக் கற்றுக்கொள்ள முடியும். BLT பல்வேறு மற்றும் சத்தமான உள்ளீடுகளை மிகவும் திறம்பட கையாள வடிவமைக்கப்பட்டுள்ளது.
BLT இன் முக்கிய அம்சங்கள் பின்வருமாறு:
என்ட்ரோபி அடிப்படையிலான பேட்சிங்: BLT பைட்டுகளை அவற்றின் தகவல் சிக்கலின் அடிப்படையில் மாறும் வகையில் பேட்சுகளாகக் குழுவாக்குகிறது. இந்த அணுகுமுறை அதிக என்ட்ரோபி (சிக்கலான) பகுதிகளுக்கு அதிக கணக்கீட்டு ஆதாரங்களை ஒதுக்குகிறது மற்றும் குறைந்த என்ட்ரோபி பகுதிகளில் வளங்களைச் சேமிக்கிறது.
திறமையான அளவிடுதல்: BLT பேட்ச் அளவுகளை மேம்படுத்துகிறது மற்றும் இலகுரக உள்ளூர் மாதிரிகளைப் பயன்படுத்துகிறது, LLaMA போன்ற டோக்கன் அடிப்படையிலான மாதிரிகளை விட ஒப்பிடத்தக்க அல்லது சிறந்த செயல்திறனை அடைகிறது. இது அனுமானத்தின் போது கணக்கீட்டுச் செலவுகளை 50% வரை குறைக்கிறது.
உறுதித்தன்மை மற்றும் நெகிழ்வுத்தன்மை: BLT எழுத்து நிலை புரிதல், சத்தமான உள்ளீடுகளைக் கையாளுதல் அல்லது நீண்ட வால் தரவுகளுக்குப் பொதுமைப்படுத்துதல் தேவைப்படும் பணிகளில் விதிவிலக்கான செயல்திறனைக் காட்டுகிறது, பல அளவுகோல்களில் டோக்கன் அடிப்படையிலான கட்டமைப்புகளை விஞ்சுகிறது.
BLT கட்டமைப்பு
BLT கட்டமைப்பு பின்வருவனவற்றைக் கொண்டுள்ளது:
- பேட்ச் பிரதிநிதித்துவங்களில் செயல்படும் ஒரு பெரிய உலகளாவிய தன்னாட்சி மொழி மாதிரி.
- பைட் வரிசைகளை பேட்சுகளாக குறியாக்கம் செய்து, பேட்ச் பிரதிநிதித்துவங்களை பைட்டுகளாக டிகோட் செய்யும் இரண்டு சிறிய உள்ளூர் மாதிரிகள்.
உலகளாவிய லேட்டன்ட் டிரான்ஸ்ஃபார்மர் மாதிரி
உலகளாவிய லேட்டன்ட் டிரான்ஸ்ஃபார்மர் ஒரு தன்னாட்சி மாதிரி, இது உள்ளீட்டு பேட்ச் பிரதிநிதித்துவங்களை வெளியீட்டு பேட்ச் பிரதிநிதித்துவங்களுக்கு வரைபடமாக்குகிறது. இது ஒரு தொகுதி காரண கவன முகமூடியைப் பயன்படுத்துகிறது.
உள்ளூர் குறியாக்கி
உள்ளூர் குறியாக்கி மாதிரி ஒரு இலகுரக டிரான்ஸ்ஃபார்மர் அடிப்படையிலான மாதிரி, இது உள்ளீட்டு பைட் வரிசைகளை வெளிப்படையான பேட்ச் பிரதிநிதித்துவங்களுக்கு திறமையாக வரைபடமாக்குகிறது. ஒவ்வொரு டிரான்ஸ்ஃபார்மர் அடுக்குக்குப் பிறகும் குறுக்கு-கவன அடுக்குகளைக் கொண்டுள்ளது, பைட் பிரதிநிதித்துவங்களை பேட்ச் பிரதிநிதித்துவங்களாக ஒருங்கிணைக்கிறது.
- பைட் உட்பொதித்தல்: உள்ளீட்டு பைட் வரிசைகள் ஒரு மேட்ரிக்ஸைப் பயன்படுத்தி உட்பொதிக்கப்படுகின்றன.
- டிரான்ஸ்ஃபார்மர் அடுக்குகள்: மாற்று டிரான்ஸ்ஃபார்மர் மற்றும் குறுக்கு-கவன அடுக்குகளின் தொடர் உட்பொதிப்புகளை பேட்ச் பிரதிநிதித்துவங்களாக மாற்றுகிறது. இதில் ஒரு உள்ளூர் தொகுதி காரண கவன முகமூடி அடங்கும்.
உள்ளூர் டிகோடர்
உள்ளூர் டிகோடர் மற்றொரு இலகுரக டிரான்ஸ்ஃபார்மர் அடிப்படையிலான மாதிரி. இது உலகளாவிய பேட்ச் பிரதிநிதித்துவங்களை அசல் பைட்டுகளாக டிகோட் செய்கிறது. இது குறுக்கு-கவனம் மற்றும் டிரான்ஸ்ஃபார்மர் அடுக்குகளின் தொடரைப் பயன்படுத்துகிறது. இது முன்பு டிகோட் செய்யப்பட்ட பைட்டுகளின் அடிப்படையில் அசல் பைட் வரிசைகளை கணிக்க அனுமதிக்கிறது.
அளவிடுதல் போக்குகள்
BLT மாதிரி மேம்பாட்டை மேலும் தெரிவிக்க பைட்-நிலை மாதிரிகளின் அளவிடுதல் போக்குகளை ஆராய்ச்சி ஆராய்கிறது. இதில் பின்வருவன அடங்கும்:
- கணக்கீட்டு ரீதியாக உகந்த பயிற்சித் திட்டங்களில் உள்ள போக்குகளை ஒப்பிடுதல்.
- பெரிய தரவுத்தொகுப்புகளில் 8B அளவுரு மாதிரிகளைப் பயிற்றுவித்தல் மற்றும் கீழ்நிலை பணிகளில் செயல்திறனை மதிப்பிடுதல்.
- அனுமான செலவு-கட்டுப்படுத்தப்பட்ட அமைப்புகளில் அளவிடுதல் போக்குகளை அளவிடுதல்.
அளவுரு-பொருத்தப்பட்ட கணக்கீட்டு ரீதியாக உகந்த அளவிடுதல் போக்குகள்
Llama 2 தரவுத்தொகுப்பைப் பயன்படுத்தி, ஆராய்ச்சியாளர்கள் பல்வேறு BPE மற்றும் BLT மாதிரிகளை வெவ்வேறு அளவுகளில் (1B முதல் 8B அளவுருக்கள் வரை) கணக்கீட்டு ரீதியாக உகந்த அமைப்புகளுடன் பயிற்றுவித்தனர். பயிற்சி ஃப்ளாப்புகள் மொழி மாதிரி செயல்திறனுக்கு எதிராக திட்டமிடப்பட்டன. BLT மாதிரிகள் BPE மாதிரிகளுடன் பொருந்தியன அல்லது அவற்றை விஞ்சியது, மேலும் இந்த போக்கு மாதிரி அளவுகள் மற்றும் ஃப்ளாப்புகள் அதிகரித்ததால் நீடித்தது.
BLT-1T தரவுத்தொகுப்பு
ஒரு பெரிய உயர்தர தரவுத்தொகுப்பான BLT-1T இல் 8B அளவுரு BLT மாதிரி பயிற்றுவிக்கப்பட்டது. BLT-என்ட்ரோபி மாதிரி 7 பணிகளில் 4 இல் Llama 3 மாதிரியை விட சிறப்பாக செயல்பட்டது என்று முடிவுகள் காட்டின. இந்த முன்னேற்றம், டைனமிக் பேட்சுகளைப் பயன்படுத்தி பயிற்சி கணக்கீட்டை சிறப்பாகப் பயன்படுத்துவதற்கும், டோக்கன்களுக்குப் பதிலாக பைட்-நிலைத் தகவலை மாடலிங் செய்வதற்கும் காரணம் ஆகும்.
பேட்ச் அளவிடுதல்
பேட்சுகள் டோக்கன்களை விட எளிதாக அளவிடப்படுகின்றன என்பதை ஆராய்ச்சி எடுத்துக்காட்டுகிறது. பேட்ச் நீளம் அளவிடுதல் பற்றிய ஆய்வு, பேட்ச் அடிப்படையிலான BLT கட்டமைப்பு பேட்ச் மற்றும் மாதிரி அளவுகளை அதிகரிப்பதன் மூலம் சிறந்த அளவிடுதல் போக்குகளை அடைய முடியும் என்பதைக் காட்டுகிறது.
பைட் மாடலிங் மூலம் உறுதித்தன்மை
எழுத்து-நிலை பணிகள்
BLT மாதிரி சத்தமில்லாத HellaSwag சோதனைகளில் சிறந்த உறுதித்தன்மையைக் காட்டுகிறது, டோக்கனைசர் அடிப்படையிலான மாதிரிகளை சராசரியாக 8 சதவீத புள்ளிகள் விஞ்சுகிறது. இது பெரிய தரவுத்தொகுப்புகளில் பயிற்சி பெற்ற Llama 3.1 மாதிரியையும் விஞ்சியது.
குறைந்த-வள மொழிகள்
BLT பிரபலமான மொழி ஜோடிகளில் Llama 3 ஐ விட ஒப்பிடத்தக்க அல்லது சற்று சிறப்பாக செயல்படுகிறது. இருப்பினும், குறைந்த-வள மொழி ஜோடிகளில் Llama 3 ஐ விட இது கணிசமாக அதிகமாக உள்ளது, இது நீண்ட வால் பைட் வரிசைகளுக்குப் பொதுமைப்படுத்துவதில் பைட் மாடலிங்கின் செயல்திறனை நிரூபிக்கிறது.
Llama 3 இலிருந்து BLT வரை
BLT மாதிரிகள் முன் பயிற்சி பெற்ற டோக்கனைசர் அடிப்படையிலான மாதிரிகளைப் பயன்படுத்தக்கூடிய ஒரு பணிப்பாய்வை ஆசிரியர்கள் ஆராய்ந்தனர். இது முன் பயிற்சி பெற்ற Llama 3.1 உடன் BLT இன் உலகளாவிய டோக்கனைசர் அளவுருக்களைத் துவக்குவதன் மூலம் செய்யப்பட்டது. Llama 3.1 உடன் துவக்கப்பட்ட BLT, Llama 3 மற்றும் அதே எண்ணிக்கையிலான ஃப்ளாப்புகளுடன் பயிற்சி பெற்ற அடிப்படை BLT மாதிரிகள் இரண்டையும் விஞ்சியது என்று முடிவுகள் காட்டின.