- Published on
ஸ்டான்போர்ட் சாட்ஜிபிடி செயல்திறன் குறைவு ஆய்வு
சாட்ஜிபிடி செயல்திறன் குறித்த ஸ்டான்போர்ட் மற்றும் பெர்க்லி ஆய்வு
ஸ்டான்போர்ட் பல்கலைக்கழகம் மற்றும் கலிபோர்னியா பல்கலைக்கழகம், பெர்க்லி ஆராய்ச்சியாளர்கள் இணைந்து 'சாட்ஜிபிடி நடத்தை காலப்போக்கில்' என்ற தலைப்பில் ஒரு ஆய்வறிக்கையை ஹார்வர்ட் டேட்டா சயின்ஸ் ரிவியூவில் வெளியிட்டனர். இந்த ஆய்வில், GPT-3.5 மற்றும் GPT-4 ஆகிய இரண்டு மாடல்களின் செயல்திறன் மூன்று மாத காலப்பகுதியில் எவ்வாறு மாறுபடுகிறது என்பதை ஆராய்ந்தனர். கணிதப் பிரச்சனை தீர்வு, குறியீடு உருவாக்கம், பல-படி அறிவு சார்ந்த கேள்விகளுக்கு பதிலளித்தல், அமெரிக்க மருத்துவ உரிமம் தேர்வு போன்ற ஏழு பணிகளில் இந்த மாடல்கள் சோதிக்கப்பட்டன.
செயல்திறன் ஏற்ற இறக்கங்கள்
மூன்று மாதங்களில் GPT-3.5 மற்றும் GPT-4 ஆகிய இரண்டு மாடல்களின் செயல்திறனில் குறிப்பிடத்தக்க மாறுபாடுகள் காணப்பட்டன. குறிப்பாக, GPT-4 இன் துல்லியம் மார்ச் மாதத்தில் 84% ஆக இருந்தது, ஆனால் ஜூன் மாதத்தில் 51% ஆகக் குறைந்தது. இதற்கு காரணம், "சிந்தனை சங்கிலி" தூண்டுதல்களைப் பின்பற்றுவதில் ஏற்பட்ட பலவீனம் ஆகும். அதே நேரத்தில், GPT-3.5 இந்த குறிப்பிட்ட பணியில் முன்னேற்றம் காட்டியது.
பிற குறிப்பிடத்தக்க மாற்றங்கள்
- ஜூன் மாதத்தில் உணர்திறன் கேள்விகள் மற்றும் கருத்துக்கணிப்புகளுக்கு பதிலளிக்க GPT-4 தயக்கம் காட்டியது.
- பல-படி பகுத்தறிவு சிக்கல்களைத் தீர்ப்பதில் GPT-4 இன் திறன் மேம்பட்டது, அதே நேரத்தில் GPT-3.5 அத்தகைய பணிகளில் குறைந்தது.
- இரண்டு மாடல்களிலும் குறியீடு உருவாக்கத்தில் வடிவமைத்தல் பிழைகள் அதிகரித்தன.
- GPT-4 இன் பயனர் அறிவுறுத்தல்களைப் பின்பற்றும் திறன் குறைந்தது.
மதிப்பீட்டு முறை
ஆராய்ச்சியாளர்கள் GPT-3.5 மற்றும் GPT-4 ஆகியவற்றை பன்முகத்தன்மை மற்றும் பிரதிநிதித்துவக் கொள்கைகளின் அடிப்படையில் மதிப்பிட்டனர். கணிதப் பிரச்சனைகள், உணர்திறன்/ஆபத்தான சிக்கல்கள், கருத்துக்கணிப்புகள், பல-படி அறிவு சார்ந்த கேள்விகள், குறியீடு உருவாக்கம், அமெரிக்க மருத்துவ உரிமம் தேர்வு, காட்சி பகுத்தறிவு போன்ற ஏழு முக்கிய களங்களில் சோதனைகள் நடத்தப்பட்டன.
அறிவுறுத்தல்களைப் பின்பற்றுதல்
இந்த சோதனைகள், குறிப்பிட்ட திறன்கள் அல்லது அறிவைப் பொருட்படுத்தாமல், அறிவுறுத்தல்களைப் பின்பற்றும் மாடல்களின் திறனை மதிப்பிடுவதற்காக வடிவமைக்கப்பட்டன. மார்ச் மாதத்தில், GPT-4 பெரும்பாலான தனிப்பட்ட அறிவுறுத்தல்களை நன்றாகப் பின்பற்றியது, ஆனால் ஜூன் மாதத்தில் அவற்றை புறக்கணிக்கத் தொடங்கியது. உதாரணமாக, பதில் பிரித்தெடுத்தல் அறிவுறுத்தல்களுக்கான இணக்க விகிதம் 99.5% லிருந்து கிட்டத்தட்ட பூஜ்ஜியமாகக் குறைந்தது. உள்ளடக்க வடிகட்டுதல் அறிவுறுத்தலின் நம்பகத்தன்மையும் 74.0% லிருந்து 19.0% ஆகக் குறைந்தது.
செயல்திறன் அளவீடுகள்
மாடல்களின் செயல்திறனை துல்லியமாகப் பிடிக்க, ஒவ்வொரு பணிக்கும் முதன்மை மற்றும் துணை செயல்திறன் அளவீடுகளை குழு நிறுவியது. உதாரணமாக:
- கணிதப் பிரச்சனைகள் மற்றும் USMLE க்கு துல்லியம் முதன்மை அளவீடாகப் பயன்படுத்தப்பட்டது.
- குறியீடு உருவாக்கத்திற்கு செயல்படுத்தக்கூடிய வெளியீட்டு குறியீட்டின் விகிதம் முதன்மை அளவீடாக இருந்தது.
நான்கு அறிவுறுத்தல் வகைகளில் சாட்ஜிபிடியின் செயல்திறன்
பதில் பிரித்தெடுத்தல்
இந்த அறிவுறுத்தல், கொடுக்கப்பட்ட உரை அல்லது கேள்வியில் இருந்து சரியான பதிலைக் கண்டுபிடித்து வெளிப்படையாக அடையாளம் காண மாடலைக் கோருகிறது. GPT-4 மார்ச் மாதத்தில் இந்த அறிவுறுத்தலுக்கு 99.5% இணக்கத்துடன் இருந்தது. ஆனால் ஜூன் மாதத்தில், இந்த விகிதம் குறைந்து, தெளிவான அறிவுறுத்தல் வடிவங்களை கையாளும் மாடலின் திறன் குறைந்துள்ளதைக் குறிக்கிறது.
மன்னிப்பு கேட்பதை நிறுத்து
இந்த அறிவுறுத்தல், மன்னிப்பு கேட்பதைத் தவிர்ப்பதற்கும், தன்னை ஒரு AI என்று அடையாளம் காட்டுவதைத் தவிர்ப்பதற்கும் மாடலின் திறனை சோதிக்கிறது. மார்ச் மாதத்தில், GPT-4 பொதுவாக இந்த அறிவுறுத்தலைப் பின்பற்றியது, ஆனால் ஜூன் மாதத்தில், குறிப்பாக அறிவுறுத்தப்பட்டாலும், அதை அடிக்கடி மீறியது.
குறிப்பிட்ட வார்த்தைகளைத் தவிர்க்கவும்
இந்த அறிவுறுத்தல், குறிப்பிட்ட கட்டுப்பாடுகளை கடைப்பிடிப்பதில் மாடலின் நெகிழ்வுத்தன்மை மற்றும் கவனத்தை சோதிக்கிறது. மார்ச் முதல் ஜூன் வரை ஏற்பட்ட சரிவு, சிக்கலான அறிவுறுத்தல்களைக் கையாளும் GPT-4 இன் திறன் குறைந்துள்ளதைக் குறிக்கிறது.
உள்ளடக்க வடிகட்டுதல்
இந்த அறிவுறுத்தல், குறிப்பிட்ட தலைப்புகள் அல்லது உணர்திறன் தகவல்களை விலக்க மாடலைக் கோருகிறது. மார்ச் மாதத்தில், GPT-4 இந்த வடிகட்டுதல் தேவைகளை பெரும்பாலும் கடைப்பிடித்தது, ஆனால் ஜூன் மாதத்தில், அதன் வடிகட்டுதல் திறன் கணிசமாகக் குறைந்து, சுமார் 19% உணர்திறன் சிக்கல்கள் மட்டுமே சரியாகக் கையாளப்பட்டன.
ஆராய்ச்சியின் தாக்கங்கள்
GPT-3.5 மற்றும் GPT-4 ஆகியவை மூடிய மூல மாடல்கள் என்பதால், OpenAI அதன் பயிற்சி தரவு மற்றும் செயல்முறைகளை வெளியிடவில்லை என்று ஆராய்ச்சியாளர்கள் குறிப்பிட்டனர். இந்த வெளிப்படைத்தன்மை இல்லாமை, ஒவ்வொரு பெரிய புதுப்பித்தலின் போதும் ஏற்படும் மாற்றங்களை பயனர்கள் அறியாமல் இருக்கிறார்கள். இந்த ஆய்வு, சாட்ஜிபிடியின் செயல்திறன் மற்றும் நடத்தை இயக்கவியலைப் புரிந்துகொள்ள டெவலப்பர்களுக்கும் பயனர்களுக்கும் உதவும், இது மாடலின் பாதுகாப்பு மற்றும் உள்ளடக்க நம்பகத்தன்மையை உறுதி செய்வதற்கு முக்கியமானது. இந்த ஆய்வு, குறிப்பாக வேகமாக வளர்ந்து வரும் சூழல்களில், இந்த மாடல்களின் நிலைத்தன்மையையும் நம்பகத்தன்மையையும் பராமரிப்பதில் உள்ள சவால்களை எடுத்துக்காட்டுகிறது.