Published on

கூகிளின் டைட்டன் கட்டமைப்பு டிரான்ஸ்ஃபார்மர் நினைவக தடையை உடைக்கிறது

ஆசிரியர்கள்
  • avatar
    பெயர்
    Ajax
    Twitter

டைட்டன்: கூகிள் நிறுவனத்தின் புதிய கட்டமைப்பு

தொழில்நுட்ப உலகம் கூகிள் நிறுவனத்திலிருந்து வெளிவரும் டைட்டன் என்ற புதிய கட்டமைப்பைப் பற்றி பரபரப்பாகப் பேசுகிறது. இது டிரான்ஸ்ஃபார்மர் மாதிரிகளின் வரம்புகளை, குறிப்பாக அவை நினைவகத்தை எவ்வாறு கையாளுகின்றன என்பதை சவால் செய்ய வடிவமைக்கப்பட்டுள்ளது. கூகிள் நிறுவனத்திற்குள் உள்ள ஒரு குழுவால் உருவாக்கப்பட்டதால், இந்த புதிய கட்டமைப்பு டிரான்ஸ்ஃபார்மருக்கு ஒரு சாத்தியமான வாரிசாக குறிப்பிடத்தக்க கவனத்தைப் பெற்று வருகிறது.

தற்போதுள்ள மாதிரிகளில் நினைவக சவால்

LSTM மற்றும் டிரான்ஸ்ஃபார்மர் போன்ற பாரம்பரிய மாதிரிகள் புதுமையானவை என்றாலும், மனிதனைப் போன்ற நினைவகத்தை உருவகப்படுத்துவதில் சவால்களை எதிர்கொள்கின்றன. இந்த சவால்களில் அடங்குபவை:

  • வரையறுக்கப்பட்ட கொள்ளளவு: தரவு பெரும்பாலும் நிலையான அளவிலான மறைக்கப்பட்ட நிலைக்குள் சுருக்கப்படுகிறது, இது தக்கவைக்கக்கூடிய தகவல்களின் அளவைக் கட்டுப்படுத்துகிறது.
  • கணக்கீட்டு சுமை: நீண்ட தூர சார்புகளைப் பிடிக்க முடிந்தாலும், கணக்கீட்டுச் செலவு வரிசை நீளத்துடன் இருபடி அதிகரிக்கிறது, இது மிக நீண்ட வரிசைகளுக்கு திறமையற்றதாக ஆக்குகிறது.
  • பயிற்சி தரவை அதிகமாகச் சார்ந்திருத்தல்: பயிற்சித் தரவை வெறுமனே மனப்பாடம் செய்வது, சோதனைத் தரவு பயிற்சி விநியோகத்திற்கு வெளியே விழக்கூடிய உண்மையான பயன்பாட்டிற்கு எப்போதும் உதவாது.

டைட்டனின் அணுகுமுறை: நரம்பியல்-ஈர்க்கப்பட்ட நினைவக தொகுதி

டைட்டன் குழு ஒரு வித்தியாசமான அணுகுமுறையை எடுத்துள்ளது, இது நரம்பியல் வலையமைப்பின் அளவுருக்களில் தகவல்களை குறியாக்கம் செய்ய முயல்கிறது. அவர்கள் சோதனை செய்யும் போது குறிப்பிட்ட தரவை எவ்வாறு நினைவில் கொள்வது மற்றும் மறப்பது என்பதை அறிய வடிவமைக்கப்பட்ட ஆன்லைன் மெட்டா-மாடலை உருவாக்கியுள்ளனர். இந்த மாதிரி நரம்பியல் உளவியல் கொள்கைகளால் ஈர்க்கப்பட்டுள்ளது, பின்வரும் முக்கிய கூறுகளை உள்ளடக்கியது:

  • ஆச்சரியம் ஒரு தூண்டுதலாக: எதிர்பாராத நிகழ்வுகள் எளிதில் நினைவில் கொள்ளப்படுகின்றன. "ஆச்சரியம்" என்பது நினைவக தொகுதிக்கு உள்ளீட்டின் சாய்வைக் கொண்டு அளவிடப்படுகிறது. சாய்வு எவ்வளவு பெரியதோ, உள்ளீடு அவ்வளவு எதிர்பாராதது.
  • உந்தம் மற்றும் மறதி வழிமுறைகள்: ஒரு உந்த வழிமுறை குறுகிய கால ஆச்சரியங்களை நீண்ட கால நினைவகத்தில் குவிக்கிறது, அதே நேரத்தில் ஒரு மறதி வழிமுறை பழைய நினைவுகளை நீக்குகிறது, இது நினைவக வழிதல் தடுக்கிறது.
  • மல்டி-லேயர் பெர்செப்ட்ரான் (MLP) அடிப்படையிலான நினைவகம்: நினைவக தொகுதி பல MLP அடுக்குகளால் ஆனது, இது தரவின் ஆழமான சுருக்கங்களை சேமிக்க அனுமதிக்கிறது, இது பாரம்பரிய மேட்ரிக்ஸ் அடிப்படையிலான நினைவுகளை விட சக்திவாய்ந்ததாக ஆக்குகிறது.

இந்த ஆன்லைன் மெட்டா-கற்றல் அணுகுமுறை, பயிற்சித் தரவை வெறுமனே மனப்பாடம் செய்வதற்குப் பதிலாக, புதிய தரவுகளுக்கு ஏற்ப எப்படி மாற்றியமைப்பது என்பதை கற்றுக் கொள்வதில் கவனம் செலுத்த உதவுகிறது. இந்த தொகுதி இணையான கணக்கீட்டிற்காகவும் வடிவமைக்கப்பட்டுள்ளது, இது அதன் செயல்திறனை மேம்படுத்துகிறது.

ஆழமான கற்றல் கட்டமைப்புகளில் நினைவக தொகுதியை ஒருங்கிணைத்தல்

டைட்டன்ஸ் ஆராய்ச்சி குழு அவர்களின் நினைவக தொகுதியை ஆழமான கற்றல் கட்டமைப்புகளில் இணைக்க மூன்று மாறுபாடுகளை முன்மொழிந்துள்ளது:

  1. MAC (நினைவகம் சூழலாக): இந்த முறை நீண்ட கால மற்றும் நிலையான நினைவகத்தை (இது பணி அறிவை குறியாக்கம் செய்கிறது) கவன வழிமுறைக்கு உள்ளீடாக இருக்கும் சூழலாக ஒருங்கிணைக்கிறது.
  2. MAG (நினைவகம் வாயிலாக): இந்த அணுகுமுறை இரண்டு கிளைகளில் ஸ்லைடிங் விண்டோ கவன வழிமுறையுடன் நினைவக தொகுதியின் கேட் செய்யப்பட்ட இணைப்பைப் பயன்படுத்துகிறது.
  3. MAL (நினைவகம் அடுக்காக): இங்கே, நினைவக தொகுதி ஒரு சுயாதீன அடுக்காக செயல்படுத்தப்படுகிறது, இது கவன வழிமுறைக்கு ஊட்டுவதற்கு முன் வரலாற்று தகவல்களை சுருக்கி வழங்குகிறது.

ஒவ்வொரு மாறுபாட்டிற்கும் அதன் பலம் மற்றும் பலவீனங்கள் இருப்பதாக குழு கண்டறிந்துள்ளது.

டைட்டன்களின் செயல்திறன் மற்றும் நன்மைகள்

மொழி மாதிரியாக்கம், பொது அறிவு பகுத்தறிவு மற்றும் நேரத் தொடர் கணிப்பு உள்ளிட்ட பல்வேறு பணிகளில் டைட்டன்ஸ் சிறந்த செயல்திறனை வெளிப்படுத்தியுள்ளது. இது டிரான்ஸ்ஃபார்மர் மற்றும் மம்பா போன்ற அதிநவீன மாதிரிகளை மிஞ்சியுள்ளது. குறிப்பாக, நீண்ட கால நினைவக தொகுதி (LMM) மட்டும் பல பணிகளில் அடிப்படை மாதிரிகளை விட சிறப்பாக செயல்பட்டுள்ளது, இது குறுகிய கால நினைவகம் (கவனம்) இல்லாமல் அதன் சுயாதீன கற்றல் திறன்களை வெளிப்படுத்துகிறது.

நீண்ட நூல்களில் நுணுக்கமான தடயங்களைக் கண்டறிய வடிவமைக்கப்பட்ட "வைக்கோல் போரில் ஊசி" சோதனையில், வரிசை நீளம் 2k இலிருந்து 16k ஆக அதிகரித்தாலும், டைட்டன்ஸ் சுமார் 90% துல்லியத்தை பராமரித்தது. நிலையான சோதனைகள் நீண்ட நூல்களைக் கையாள்வதில் டைட்டன்களின் நன்மைகளை முழுமையாக வெளிப்படுத்தவில்லை என்று குழு குறிப்பிடுகிறது. மிக நீண்ட ஆவணங்களில் இருந்து உண்மைகளை ஊகிக்கும் ஒரு பணியில் டைட்டன்ஸ் GPT4, மம்பா மற்றும் RAG உடன் கூடிய Llama3.1 போன்ற மாதிரிகளை விட சிறப்பாக செயல்பட்டது.

டைட்டன்ஸ் நேரத் தொடர் கணிப்பு மற்றும் டிஎன்ஏ வரிசை மாதிரியாக்கம் போன்ற குறிப்பிட்ட பகுதிகளிலும் ஈர்க்கக்கூடிய செயல்திறனைக் காட்டியுள்ளது.

டைட்டன்ஸின் பின்னணியில் உள்ள குழு

இந்த ஆராய்ச்சி கூகிள் ரிசர்ச் NYC அல்காரிதம்ஸ் மற்றும் ஆப்டிமைசேஷன் குழுவின் மூலம் நடத்தப்பட்டது, தற்போது கூகிள் டீப்மைண்டின் ஒரு பகுதியாக இல்லை.

கார்னெல் பல்கலைக்கழகத்தின் இன்டர்ன் அலி பெஹ்ரூஸ் இந்த ஆய்வறிக்கையின் முதல் ஆசிரியர்.

சிங்குவா பல்கலைக்கழக முன்னாள் மாணவரும், கொலம்பியா பல்கலைக்கழகத்தில் முனைவர் பட்டம் பெற்றவருமான ஜாங் பெய்லின், 2021 முதல் கூகிளில் ஆராய்ச்சி விஞ்ஞானியாக உள்ளார். அவர் ஒரு இளங்கலை மாணவராக STOC 2016 இல் முதல்-ஆசிரியர் ஆய்வறிக்கையை வெளியிட்டதற்காக குறிப்பிடத்தக்கவர்.

கூகிள் ஃபெல்லோ மற்றும் VP ஆன வஹாப் மிர்ரோக்னி குழுவை வழிநடத்துகிறார்.

டைட்டன்ஸ் பைட்டோர்ச் மற்றும் ஜாக்ஸ் பயன்படுத்தி உருவாக்கப்பட்டது. பயிற்சி மற்றும் மதிப்பீட்டிற்கான குறியீட்டை விரைவில் வெளியிட திட்டமிட்டுள்ளனர்.