- Published on
OpenAI இன் O3 மாதிரி: பகுத்தறிவில் ஒரு பாய்ச்சல் மற்றும் ARC AGI முன்னேற்றம்
OpenAI இன் O3 மாதிரி: பகுத்தறிவில் ஒரு பாய்ச்சல் மற்றும் ARC AGI முன்னேற்றம்
OpenAI இன் O3 மாதிரி, சமீபத்தில் வெளியிடப்பட்டது, இது செயற்கை நுண்ணறிவு (AI) துறையில் ஒரு பெரிய முன்னேற்றத்தை குறிக்கிறது. இந்த மாதிரி, பகுத்தறிவு திறன்களை மேம்படுத்துவதிலும், ARC AGI சவாலை வெற்றிகரமாக எதிர்கொள்வதிலும் குறிப்பிடத்தக்க முன்னேற்றங்களை அடைந்துள்ளது. O3 மாதிரியின் முக்கிய சிறப்பம்சங்கள் மற்றும் அதன் தாக்கம் பற்றி விரிவாகப் பார்ப்போம்.
முக்கிய சிறப்பம்சங்கள்
- பலமுறை உருவாக்கும் ஒருமித்த கருத்து: O1 மாதிரியின் சிறந்த செயல்திறனுக்கு பலமுறை உருவாக்கும் ஒருமித்த கருத்து மிகவும் முக்கியமானது. இது அனைத்து பகுத்தறிவு நிலைகளுக்கும் பொருந்தும். சிறந்த முடிவுகளைப் பெற, ஒற்றை வெளியீட்டு ஓட்டத்தை மட்டும் நம்பக்கூடாது.
- மர தேடல் இல்லை: O3 மாதிரி, மர தேடலை சேர்த்து அதன் பகுத்தறிவு கட்டமைப்பை மாற்றியது என்பதற்கு எந்த ஆதாரமும் இல்லை. அனைத்து கூற்றுகளும் வெறும் வதந்திகளே. பகுத்தறிவு விரிவாக்க விதியின் முக்கிய விதி என்னவென்றால், ஒரே ஒரு ஓட்டத்தில் இருந்து அதிகமான உள்ளடக்கத்தை மாதிரி செய்வது செயல்திறனை மேம்படுத்தும்.
- வலுவூட்டல் கற்றலின் மறுபிரவேசம்: இந்த ஆண்டு, வலுவூட்டல் கற்றல் (RL) மற்றும் அதனுடன் தொடர்புடைய முறைகள், செயற்கை நுண்ணறிவின் மையமாக மீண்டும் நிறுவப்பட்டுள்ளன.
- O3 மாதிரியின் முன்னோட்டம்: OpenAI, O3 மாதிரியின் முன்னோட்டத்தை வெளியிட்டது, இது O1 ஐப் பயன்படுத்தி பகுத்தறிவதற்கான மொழி மாதிரிகளைப் பயிற்றுவிப்பதில் சமீபத்திய முன்னேற்றங்களை மேலும் மேம்படுத்துகிறது. இந்த மாதிரிகள் O3-மினியில் தொடங்கி, 2025 ஜனவரி இறுதியில் பொதுமக்களுக்குக் கிடைக்கும் என்று எதிர்பார்க்கப்படுகிறது.
- AI ஒருங்கிணைப்பு ஆண்டு: 2024 ஆம் ஆண்டு முடிவடையும் நிலையில், பல பார்வையாளர்கள் இந்த ஆண்டை செயற்கை நுண்ணறிவின் ஒருங்கிணைப்பு ஆண்டாக கருதுகின்றனர். பல பங்கேற்பாளர்கள் GPT-4 க்கு இணையான நிலையை அடைந்து, இந்த மாதிரிகளை எவ்வாறு பயன்படுத்துவது என்று ஆராயத் தொடங்கியுள்ளனர்.
- O3 இன் எதிர்பாராத வருகை: 2024 ஆம் ஆண்டில் "GPT-4 வெளியீடு" போன்ற உற்சாகமான தருணம் எதுவும் இல்லை. O3 இன் வருகை இந்த நிலையை மாற்றியுள்ளது. ஏனெனில் இது O1 ஐ விட மிகவும் எதிர்பாராதது மற்றும் பகுத்தறிவு மாதிரிகளின் விரைவான முன்னேற்றத்தைக் குறிக்கிறது. O1 இன் வருகை நீண்ட தயாரிப்பு காலத்தை கொண்டிருந்தது, ஆனால் O3 இன் விரைவான மற்றும் திறமையான வெளியீடு, 2025 இல் என்ன நடக்கும் என்று எதிர்பார்க்க வைக்கிறது.
- பயன்பாட்டின் பரவல்: O1 வகை மாதிரிகள் கணிதம், நிரலாக்கம், இயற்பியல் மற்றும் கடின அறிவியல் போன்ற துறைகளில் மட்டுமின்றி, விரைவில் அனைத்து செயற்கை நுண்ணறிவு ஆராய்ச்சி சூழலிலும் பரவலாகப் பயன்படுத்தப்படும்.
- புதிய சிகரம்: OpenAI இன் O3 மாதிரி, இணைய உரையை மட்டுமே நம்பி பயிற்சி பெறுவதன் மூலம் கிடைக்கும் பயன்கள் குறைந்து வருவதால், அடுத்த கட்டத்தை நோக்கி நகர்கிறது என்பதை காட்டுகிறது.
- முக்கிய முன்னேற்றங்கள்: O3 மாதிரி, பகுத்தறிவு மதிப்பீட்டில் பல முக்கிய முன்னேற்றங்களை அடைந்துள்ளது.
- ARC AGI விருதில் 85% க்கும் அதிகமான நிறைவு விகிதத்தை எட்டிய முதல் மாதிரி இதுவாகும்.
- புதிய Frontier Math அளவுகோலில் செயல்திறன் 2% இலிருந்து 25% ஆக உயர்ந்தது.
- அனைத்து முன்னணி நிரலாக்க அளவுகோல்களிலும் குறிப்பிடத்தக்க முன்னேற்றம் அடைந்துள்ளது.
O3 மாதிரி பற்றிய கண்ணோட்டம்
OpenAI இன் O3 மாதிரி, "OpenAI இன் 12 நாள் வெளியீட்டு நிகழ்வின்" கடைசி நாளில் அறிவிக்கப்பட்டது. இந்த வெளியீடு, பல துறைகளில் முந்தைய மேம்பட்ட மாதிரிகளை (Gemini 1.5 Pro மற்றும் Claude 3.5 Sonnet New) விட அதிக மதிப்பெண்களைப் பெற்றது.
O1 தொடர் மாதிரிகள் பற்றிய வலைப்பதிவு கட்டுரைகள் மற்றும் உரையாடல்களில், நிரல்களில் உள்ள நிழல்களின் பொருள் கவனிக்கப்படாமல் இருந்தது. O1 இன் முதல் வலைப்பதிவு கட்டுரையில், முதல் முடிவு வரைபடத்தின் விளக்கத்தில் இது குறிப்பிடப்பட்டுள்ளது. திடமான நிரல்கள் pass@1 இன் துல்லியத்தைக் குறிக்கின்றன, மேலும் நிழல் பகுதிகள் 64 மாதிரிகளைப் பயன்படுத்தி பெரும்பான்மை வாக்கெடுப்பின் (ஒருமித்த கருத்து) செயல்திறனைக் குறிக்கின்றன.
இந்த விவரம், பலமுறை உருவாக்கும் ஒருமித்த கருத்து O1 மாதிரியின் சிறந்த செயல்திறனுக்கு மிகவும் முக்கியமானது என்பதைக் காட்டுகிறது. இது அனைத்து பகுத்தறிவு கணக்கீடுகளுக்கும் பொருந்தும். சிறந்த முடிவுகளைப் பெற, ஒற்றை வெளியீட்டு ஓட்டத்தை மட்டும் நம்பக்கூடாது. இருப்பினும், இது மர தேடல் அல்லது இடைநிலை பிரதிநிதித்துவத்தைப் பயன்படுத்த வேண்டும் என்று அர்த்தமல்ல. O1 இன் தொழில்முறை மாதிரி மற்றும் நாம் விவாதிக்கப் போகும் ARC விருது முடிவுகள், அதிகபட்ச மதிப்பெண்களைப் பெற இந்த இணையாக உருவாக்கும் முறையை நம்பியுள்ளன.
Frontier Math அளவுகோலின் தரமான மதிப்பீட்டிற்கு, இரண்டு ஃபீல்ட்ஸ் பதக்கம் வென்றவர்களின் கருத்துகளைப் பார்க்கலாம். அவர்களின் கருத்துகள் இந்த அளவுகோலின் கடினமான பகுதிகளை இலக்காகக் கொண்டவை, ஆனால் இது தரமான இலக்கை நன்கு பிரதிபலிக்கிறது.
- "இந்த கேள்விகள் மிகவும் சவாலானவை... அவை குறைந்தது அடுத்த சில வருடங்களுக்கு செயற்கை நுண்ணறிவை திகைக்க வைக்கும் என்று நான் நினைக்கிறேன்." - டெரன்ஸ் தாவோ, 2006 ஃபீல்ட்ஸ் பதக்கம் வென்றவர்.
- "நான் பார்த்த கேள்விகள் எதுவும் எனது ஆராய்ச்சித் துறையைச் சேர்ந்தவை அல்ல, மேலும் அவை என்னால் தீர்க்க முடியாதவை போல் தெரிகிறது... அவை IMO (சர்வதேச கணித ஒலிம்பியாட்) கேள்விகளை விட ஒரு படி மேலே இருப்பதாகத் தோன்றுகிறது." - திமோதி கோவர்ஸ், 2006 ஃபீல்ட்ஸ் பதக்கம் வென்றவர்.
இந்த அளவுகோல் நவம்பர் 7 ஆம் தேதி அறிமுகப்படுத்தப்பட்டது, மேலும் AI திறன்களில் இன்னும் அடையப்படாத சில திறந்த எல்லைகளில் ஒன்றாக இது பட்டியலிடப்பட்டுள்ளது. இந்த வெளியீடு, OpenAI இன் O3 ஐ இரண்டு இலக்க மதிப்பெண்களைப் பெற்ற ஒரே மாதிரியாக நிலைநிறுத்துகிறது, மேலும் இது நேரடியாக 25% ஆக உயர்ந்துள்ளது.
இரண்டாவது முன்னணி முடிவு நிரலாக்கத் துறையில் வெளிப்பட்டது. நேரலையில், OpenAI ஆனது SWE-Bench Verified இன் 71.7% மதிப்பெண்ணைக் காட்டியது (இது தற்போதைய மேம்பட்ட நிலை), மேலும் Codeforces (ஒரு நிரலாக்க போட்டி வலைத்தளம்) இல் பரவலான முடிவுகளையும் காட்டியது.
O3 ஆனது ஒரு வெளியிடப்படாத N மதிப்பில் ஒருமித்த வாக்கெடுப்பின் மூலம் 2727 மதிப்பெண் பெற்று, சர்வதேச கிராண்ட்மாஸ்டர் நிலையை அடைந்தது, இது உலகளாவிய மனித போட்டி நிரலாளர்களில் முதல் 200 இடங்களில் உள்ளது. O3-மினி O1 ஐ விட சிறந்த செயல்திறன் கொண்டது, அதே நேரத்தில் செலவு கணிசமாகக் குறைக்கப்பட்டது. 2024 இல் நாம் கண்ட போக்குகளைப் பார்க்கும்போது, இது பரந்த பயனர்களால் பயன்படுத்தப்படும் அதிக செல்வாக்குள்ள மாதிரியாக இருக்கலாம். இது O3 நேரலையில் இறுதியான திருப்புமுனை முடிவை சாத்தியமாக்கியது - ARC AGI சவாலை திறம்பட தீர்த்தது.
ARC மதிப்பீட்டை எதிர்கொள்ளுதல்
சுருக்கம் மற்றும் பகுத்தறிவு கார்பஸ் (ARC) என்பது பிரான்சுவா சோலெட்டால் 2019 ஆம் ஆண்டு "அறிவின் அளவீடு" என்ற கட்டுரையில் முன்மொழியப்பட்ட ஒரு செயற்கை நுண்ணறிவு மதிப்பீட்டு முறையாகும். ARC மதிப்பீடு மனித நுண்ணறிவை மதிப்பிடுவதற்கு நெருக்கமாக வடிவமைக்கப்பட்டுள்ளது.
அல்காரிதம் தகவல் கோட்பாட்டின் அடிப்படையில், நாங்கள் நுண்ணறிவின் ஒரு புதிய முறையான வரையறையை முன்வைக்கிறோம், இது திறன் கையகப்படுத்துதல் திறனாக நுண்ணறிவை விவரிக்கிறது மற்றும் வரம்பு, பொதுமைப்படுத்தலின் சிரமம், முந்தைய அறிவு மற்றும் அனுபவம் ஆகியவற்றின் கருத்தை வலியுறுத்துகிறது. இந்த வரையறையின் அடிப்படையில், பொதுவான செயற்கை நுண்ணறிவு அளவுகோலுக்கான வடிவமைப்பு வழிகாட்டுதல்களை நாங்கள் முன்மொழிகிறோம். இறுதியாக, இந்த வழிகாட்டுதல்களை கண்டிப்பாக பின்பற்றும் ஒரு அளவுகோலை நாங்கள் காட்டுகிறோம் - சுருக்கம் மற்றும் பகுத்தறிவு கார்பஸ் (ARC), இது மனிதர்களின் உள்ளார்ந்த அறிவுக்கு முடிந்தவரை நெருக்கமாக இருக்கும் தெளிவான முன் அறிவின் அடிப்படையில் கட்டமைக்கப்பட்டுள்ளது. ARC ஆனது மனிதனைப் போன்ற பொதுவான நுண்ணறிவை அளவிடப் பயன்படுகிறது, மேலும் இது செயற்கை நுண்ணறிவு அமைப்புகளுக்கும் மனிதர்களுக்கும் இடையே நியாயமான பொதுவான நுண்ணறிவு ஒப்பீட்டைச் செய்ய முடியும் என்று நாங்கள் நம்புகிறோம்.
ARC AGI விருது 2024 ஜூன் மாதம் தொடங்கப்பட்டது, இது குறிப்பிட்ட தரங்களை பூர்த்தி செய்து ஒரு தொகுப்பு தனியார் ARC பணிகளை தீர்க்கும் முதல் தீர்வுக்கு $1 மில்லியன் பரிசு வழங்கப்பட்டது. அந்த பணியை "தீர்த்ததாக" கருதப்படும் தகுதி 85% துல்லியத்தை அடைவதாகும். இன்று, OpenAI மற்றும் ARC பரிசு பின்வரும் முடிவுகளைப் பகிர்ந்துள்ளன:
விலைகளின் x-அச்சை கவனமாகப் பாருங்கள், இந்த விஷயத்திற்குப் பிறகு வருவோம்.
O1 வகை மாதிரிகளுக்கு முன், OpenAI இன் சிறந்த மாதிரி GPT-4o 5% துல்லியத்தை மட்டுமே அடைந்தது. OpenAI அதன் புதிய பகுத்தறிவு மாதிரியில் அடைந்த விரைவான முன்னேற்றத்தை ARC விருது இணை நிறுவனர் மைக் க்னூப் சுருக்கமாகக் கூறினார்:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): சுமார் 50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87%
இந்த ஆண்டு ஜூன் மாதத்தில், ARC-AGI ஐத் தீர்ப்பது மிகவும் கடினமாக இருக்கும் என்று பரவலாக நம்பப்பட்டது. இருப்பினும், சில மாதங்களுக்குப் பிறகு, இந்த கருத்து முற்றிலும் தலைகீழாக மாறியது. Q* மற்றும் பிற பகுத்தறிவு முறைகளில் நம்பிக்கை உள்ளவர்கள் கூட, இத்தகைய வெற்றியை எதிர்பார்க்கவில்லை.
சோலெட் ARC விருது அதிகாரப்பூர்வ இணையதளத்தில் மேலும் விவரங்களைப் பகிர்ந்துள்ளார்:
நாங்கள் இரண்டு ARC-AGI தரவுத்தொகுப்புகளைப் பயன்படுத்தி O3 ஐ சோதித்தோம்:
- அரை-தனியார் மதிப்பீடு: அதிகப்படியான பொருத்தத்தை மதிப்பிடுவதற்காக 100 தனியார் பணிகள்
- பொது மதிப்பீடு: OpenAI இன் வழிகாட்டுதலின் கீழ் 400 பொது பணிகள், மாறுபட்ட மாதிரி அளவுகளுடன் இரண்டு கணக்கீட்டு நிலைகளில் சோதனைகள் நடத்தினோம்: 6 (திறமையான முறை) மற்றும் 1024 (திறனற்ற முறை, முந்தையதை விட 172 மடங்கு கணக்கீடு கொண்டது).
சோதனை முடிவுகள் கீழே:
குறிப்பு: O3 அதிக கணக்கீட்டு செலவுக்கான குறிப்பிட்ட தரவு இன்னும் வெளியிடப்படவில்லை, ஏனெனில் விலை மற்றும் செயல்பாட்டு கிடைக்கும் தன்மை இன்னும் தீர்மானிக்கப்படவில்லை. கணக்கீடு குறைந்த கணக்கீட்டு உள்ளமைவை விட 172 மடங்கு அதிகம்.
உதாரணமாக, தீர்க்கப்படாத ஒரு பிரச்சனை இங்கே:
பல கேள்விகள் மனிதர்களுக்கு மிகவும் உள்ளுணர்வு கொண்டவை. இந்த கேள்விகளை மாதிரியில் உள்ளீடு செய்ய, வண்ணங்கள் எண்களாகவும், சூழல் உள்ளீடாக கட்டங்களாக குறியிடப்பட்டுள்ளன, கிரெக் காம்ராட் வலியுறுத்தியபடி:
தொழில்நுட்ப ரீதியாக, பரிசு இன்னும் பெறப்படவில்லை, ஏனெனில் தீர்வின் விலை வரம்பை மீறி, திறந்த மூலமாக இல்லை. போட்டி இன்னும் தொடர்கிறது. சில வருடங்களில், இந்த வகையான நுண்ணறிவு கிட்டத்தட்ட இலவசமாகிவிடும். இலவசம் என்பது, பகுத்தறிவை இயக்குவதற்கான செலவு பயனர் விளம்பரத் தரவின் நாணய மதிப்பைக் காட்டிலும் குறைவாக இருக்கும்.
தற்போது, ARC விருது வலைப்பதிவில் மேற்கோள் காட்டப்பட்ட O3 விலை (OpenAI இன் உரையாடலில் O1 உடன் ஒப்பிடும்போது தொடர்புடைய விலையாக மாற்றப்பட்டது), O3 தொழில்நுட்பம் எவ்வாறு செயல்படுகிறது என்பது பற்றிய பல விவரங்களை வெளிப்படுத்துகிறது.
O3 இன் கட்டமைப்பு, செலவு மற்றும் பயிற்சி முறை
ARC AGI குழு, OpenAI உடன் நேரடியாக இணைந்து, அதன் மாதிரியின் விலை மதிப்பீடுகளைப் பெற்றது. API இல் O3 அதிகாரப்பூர்வமாக தொடங்கப்பட்ட பிறகு இறுதி விலை நிர்ணயம் மாறுபடலாம். பகுத்தறிவு விரிவாக்க விதியின் முக்கியத்துவத்தின் அடிப்படையில், ARC-AGI குழு, தீர்வு சமர்ப்பிப்பதற்கான ஒரு கூடுதல் தேவையை தனியார் மதிப்பீட்டிற்கு சேர்த்தது. அவர்களின் வலைப்பதிவு கட்டுரையில், குழு மொத்த செலவு மற்றும் ஒவ்வொரு பணிக்கான செலவை FLOP களின் ப்ராக்ஸி காட்டி அல்லது கணக்கீட்டு வளங்களின் நேரடி கணக்கீடாக பதிவு செய்துள்ளது.
இது ARC விருது அறிவிப்பில் பொது தரவரிசைக்கான ஒரு விதியுடன் ஒத்துப்போகிறது (இது $1 மில்லியன் பரிசோடு தொடர்புடையது அல்ல):
$10,000 USD என்பது 500 பணிகளை (பொது மதிப்பீட்டு தொகுப்பில் உள்ள 400 பணிகள் மற்றும் புதிய அரை-தனியார் மதிப்பீட்டு தொகுப்பில் உள்ள 100 பணிகள் உட்பட) தீர்ப்பதற்கு செலவிடக்கூடிய இயக்க செலவு வரம்பு ஆகும், இதில் வணிக API ஐ அழைப்பதற்கான செலவும் அடங்கும்.
பொது அல்லது அரை-பொது மதிப்பீட்டு தொகுப்பில் உள்ள 500 பணிகளில், O3 இன் செலவு இந்த வரம்பை விட அதிகமாக இருந்தது. ARC விருது O3 இன் ஒரு வினவலுக்கான செலவு $1,000 ஐ விட அதிகமாக உள்ளது என்று காட்டுகிறது. அவர்கள் மாதிரியின் தன்மை பற்றிய அனுமானங்களையும் செய்தனர். O3, O1 ஐ விட வேறு பயிற்சி நுட்பத்தைப் பயன்படுத்துகிறதா என்ற ஊகங்களை அமைதிப்படுத்துவதற்காக பின்வரும் உள்ளடக்கம். குறிப்பாக, சோலெட் தான் ஊகிப்பதாகக் குறிப்பிட்டார்:
தற்போது, O3 எவ்வாறு செயல்படுகிறது என்பதைப் பற்றி மட்டுமே நாம் ஊகிக்க முடியும். ஆனால் O3 இன் முக்கிய வழிமுறை டோக்கன் இடத்தில் இயற்கை மொழி நிரல் தேடல் மற்றும் செயல்படுத்தல் ஆகும். சோதனையின் போது, மாதிரி சாத்தியமான சிந்தனைச் சங்கிலிகளின் (CoTs) இடத்தை தேடுகிறது. இந்த சிந்தனைச் சங்கிலிகள் பணியைத் தீர்க்க தேவையான படிகளை விவரிக்கின்றன, இது ஆல்பாஜீரோ பாணியிலான மாண்டே கார்லோ மர தேடலுக்கு ஒத்ததாக இருக்கலாம். O3 இன் விஷயத்தில், தேடல் ஒரு மதிப்பீட்டு மாதிரியால் வழிநடத்தப்படலாம்.
மீண்டும், MCTS (மாண்டே கார்லோ மர தேடல்) பற்றிய குறிப்பு மற்றும் அனுமானம் தவறானது, ஆனால் இது புரிந்துகொள்ளத்தக்கது, ஏனெனில் பல புத்திசாலிகள் O1 மற்றும் O3 ஒரு ஒற்றை மொழி மாதிரியின் முன்னோக்கி கடந்து செல்வதன் மூலம் அடையக்கூடிய திறமையால் அதிர்ச்சியடைந்துள்ளனர்.
பெரிய அளவிலான வலுவூட்டல் கற்றல் பயிற்சியின் மூலம் இது எவ்வாறு சாத்தியமாகும் என்பதை எனது சமீபத்திய கட்டுரை விளக்குகிறது, மேலும் OpenAI இன் சில வரைபடங்கள் பகுத்தறிவு கட்டத்தில் கணக்கீட்டு செலவில் தவறாக வழிநடத்துவது ஏன் என்பதையும் விளக்குகிறது. OpenAI ஊழியர்களும் O3 "வலுவூட்டல் கற்றல் மூலம் பயிற்சி அளிக்கப்பட்ட ஒரு மாதிரி" என்று வலியுறுத்தியுள்ளனர்.
இருப்பினும், ARC குழுவால் பதிவு செய்யப்பட்ட செலவுகளின் அடிப்படையில், OpenAI இன் O1 விலை நிர்ணயத்துடன் (5000 ஆகும். மொத்த செலவை ஒரு டோக்கனுக்கான விலையால் வகுத்தால், மாதிரி ஒவ்வொரு பதிலுக்கும் 80 மில்லியன் டோக்கன்களை உருவாக்கியது என்ற முடிவுக்கு வருகிறோம், இது நீண்ட சூழல் மாதிரியில் அதிக முன்னேற்றம் இல்லாமல் சாத்தியமில்லை. எனவே, வெவ்வேறு தேடல் கட்டமைப்புகள் பற்றிய ஊகங்கள் எழுகின்றன.
ARC விருது வலைப்பதிவு கட்டுரையில் உள்ள சில விவரங்கள் முக்கியமானது, அதில் குறிப்பிடப்பட்டுள்ளது:
OpenAI இன் வழிகாட்டுதலின் கீழ், மாறுபட்ட மாதிரி அளவுகளுடன் இரண்டு கணக்கீட்டு நிலைகளில் சோதனைகள் நடத்தினோம்: 6 (திறமையான முறை) மற்றும் 1024 (திறனற்ற முறை, முந்தையதை விட 172 மடங்கு கணக்கீடு கொண்டது).
SemiAnalysis இன் கூற்றுப்படி, O1 pro ஆனது self-consistency முறையைப் பயன்படுத்துகிறது அல்லது consensus@N ஐப் பயன்படுத்துகிறது. ஒரே வினவலுக்கான பல இணையாக வரும் பதில்களில் மிகவும் பொதுவான பதிலைத் தேர்ந்தெடுப்பதன் மூலம் செயல்திறனை மேம்படுத்துகிறது. இங்கே, மாதிரி அளவு N என்பது consensus@N இன் எண்ணாக இருக்கலாம், இது O3 இன் மதிப்பீட்டு உள்ளமைவு வாடிக்கையாளர்கள் பயன்படுத்தக்கூடிய O1 pro உள்ளமைவுக்கு நெருக்கமாக உள்ளது என்பதைக் குறிக்கிறது, அதாவது 6 மடங்கு கணக்கீடு மற்றும் ஒவ்வொரு பிரச்சனைக்கும் 1024 மடங்கு கணக்கீடு கொண்ட அதிக உள்ளமைவு.
இந்த அளவிலான பகுத்தறிவு நீண்ட காலத்திற்கு சாதாரண கட்டண பயனர்களுக்கு கிடைக்காது. பெரும்பாலான பயனர்கள் ஒருமுறை உருவாக்குவதில் இருந்து consensus@10 வரை மட்டுமே அணுக முடியும், இது O1 மாதிரியின் "தொழில்முறை" பதிப்பின் விவரக்குறிப்புகளைப் பொறுத்தது.
ஒரு மில்லியன் வெளியீட்டு டோக்கன்களின் விலை $60 என்று வைத்துக்கொண்டால், அதை 1024 ஓட்டங்களால் வகுத்தால், மாதிரி ஒவ்வொரு பதிலுக்கும் சுமார் 78,000 டோக்கன்களை உருவாக்குகிறது என்று அர்த்தம். உண்மையில், O3 ஒரு பெரிய அடிப்படை மாதிரியிலிருந்து பயனடைகிறது. ஏனெனில் OpenAI நேரலையில் காட்டிய அனைத்து மடக்கை கணக்கீட்டு அளவுகோல் x-அச்சுகளைப் பார்க்கும்போது, O1 இன் கணக்கீட்டு செலவு கணிசமாக அதிகரித்துள்ளது. ஒரு பெரிய அடிப்படை மாதிரியைப் பயன்படுத்துவது, இந்த எண்கள் நியாயமானவை, மேலும் இது கூடுதல் "தேடல்" உறுப்பு சேர்க்கப்பட்டதைக் குறிக்கவில்லை.
சமீபத்திய ஆண்டுகளில் ஆழமான கற்றலில் முன்னேற்றத்தை இயக்கிய முக்கிய கதை, ஒரு சாத்தியமான வளமான பகுதியை கண்டுபிடித்து அதில் தொடர்ந்து ஏறுவதுதான். இணைய அளவிலான முன் பயிற்சியிலிருந்து முதல் அலை வந்தது. இப்போது, OpenAI வலுவூட்டல் கற்றல் பயிற்சி மற்றும் நீண்ட சூழல் பகுத்தறிவை விரிவுபடுத்துவதன் மூலம் ஒரு புதிய ஏறும் திசையை கண்டுபிடித்துள்ளது. OpenAI ஆனது O1 ஐ வெளியிட்டதிலிருந்து O3 வரை சுமார் மூன்று மாதங்கள் மட்டுமே ஆனது என்பதைப் பார்க்கும்போது, இது அதே கட்டமைப்பு மற்றும் பயிற்சி முறையைப் பயன்படுத்தியது என்றும், ஆனால் பெரிய அளவில் இருந்தது என்றும் எளிதாக விளக்கலாம்.
O3 ஆனது மர தேடலைச் சேர்ப்பதன் மூலம் அதன் பகுத்தறிவு கட்டமைப்பை மாற்றியது என்பதற்கு எந்த ஆதாரமும் இல்லை, அனைத்து கூற்றுகளும் வதந்திகளே. பகுத்தறிவு விரிவாக்க விதியின் முக்கிய விதி என்னவென்றால், ஒரே ஒரு ஓட்டத்தில் இருந்து அதிகமான உள்ளடக்கத்தை மாதிரி செய்வது செயல்திறனை மேம்படுத்தும்.
முக்கிய கேள்வி என்னவென்றால், O3 இன் அடிப்படை மாதிரி ஓரியன் (OpenAI இன் உள் குறியீடு, GPT-5 ஆக இருக்கலாம்) அல்லது புதிய அடிப்படை மாதிரி பயிற்சியின் போது ஓரியனில் இருந்து மட்டுமே பயனடைந்ததா என்பதுதான். அடிப்படை மாதிரியின் அளவு 2 முதல் 5 மடங்கு அதிகரித்திருந்தால், ARC விருதுகளில் இருந்து தெரிவிக்கப்பட்ட API விலைகளைப் பார்க்கும்போது, இந்த தரவு அனைத்தும் எதிர்பார்ப்புகளுக்கு ஏற்ப உள்ளது.
O3 இன் குறிப்பிட்ட விவரங்கள் இன்னும் நிச்சயமற்றதாக உள்ளன. ARC குழு வெளியிட்ட வரைபடங்களில், O3 மாதிரியின் அருகில் "(tuned)" என்று குறிக்கப்பட்டுள்ளது, ஆனால் O3 பற்றி இன்னும் விரிவான விளக்கம் இல்லை. இருப்பினும், முன்னேற்றத்தின் போக்கில் நாம் கவனம் செலுத்தும் போது, O1 அளவிலான மாதிரிகள் நீண்ட காலத்திற்கு இருக்கும் என்பது தெளிவாகிறது.
கடைசியாக, பணிவாக இருக்க, O3 தீர்க்கத் தவறிய ஒரு ARC விருது உதாரணம் இங்கே உள்ளது. இது மிகவும் எளிமையானது.
நாம் இன்னும் நீண்ட தூரம் செல்ல வேண்டும், ஆனால் இந்த மாதிரிகள் பரவலாகப் பயன்படுத்தப்படும் உண்மை பெரும்பாலான மக்கள் எதிர்பார்த்ததை விட முன்னதாகவே வரும் என்று நீங்கள் உற்சாகமாக இருக்க வேண்டும். AI தொடர்ந்து முன்னேறும் என்று கருதுவது பாதுகாப்பானது.
2024: RL இன் மறுபிரவேசம்
இன்று முன்னதாக, ஆந்த்ரோபிக் நிறுவனத்தை உருவாக்கியது பற்றிய ஒரு காணொளியை ஆந்த்ரோபிக் வெளியிட்டது, இதில் பல இணை நிறுவனர்கள் கலந்துரையாடினர். அதில் இணை நிறுவனரும் CEOவுமான டேரியோ அமோடி பகிர்ந்து கொண்ட ஒரு எதிர்பாராத விவரம் உள்ளது:
"... இந்த மாதிரிகளை விரிவுபடுத்துவதற்கான ஒரே காரணம், அவற்றின் நுண்ணறிவு RLHF ஐ (மனித கருத்துக்களைப் பயன்படுத்தி வலுவூட்டல் கற்றல்) அடிப்படையாகக் கொண்டு செயல்பட போதுமானதாக இல்லை."
நவீன RLHF கருத்தின் நிறுவனர்களில் ஒருவராக, டேரியோ அனைத்து நுணுக்கமான தொழில்நுட்ப முன்னேற்றங்களும் விரைவில் வரும் என்பதை உள்ளுணர்வுடன் அறிந்திருக்கலாம். RLHF இன் சாத்தியம் குறித்த இந்த பார்வை பெரும்பாலான பயிற்சியாளர்களின் அறிவை விட பரந்த மற்றும் ஆழமானது.
இந்த ஆண்டு, வலுவூட்டல் கற்றல் (RL) மற்றும் அதனுடன் தொடர்புடைய முறைகள், செயற்கை நுண்ணறிவின் மையமாக மீண்டும் நிறுவப்பட்டுள்ளன.
இந்த கட்டுரையை எழுதுவது, 2025 இல் இதுபோன்ற ஒரு பகுத்தறிவு அடிப்படையிலான மொழி மாதிரியை பயிற்சி செய்ய வேண்டும் என்று என்னை நானே சமாதானப்படுத்திக் கொண்டேன். 2024 இல் தொழில்நுட்ப நிறுவனங்களுக்கு, நிலையான முன் பயிற்சி என்பது ஒரு தொழில்துறையின் அடிப்படைத் தேவையாக மாறியது போன்ற உணர்வு இது. O1 பாணியிலான மாதிரிகள் எதிர்காலத்தில் நீண்ட காலத்திற்கு செயற்கை நுண்ணறிவு கருவிப்பெட்டியில் இயல்புநிலை கருவியாக இருக்கும் என்று எதிர்பார்க்கப்படுகிறது. இந்த புதிய உலகக் கண்ணோட்டத்தை ஏற்றுக்கொள்வதற்கும், இந்த மாதிரிகளின் பயிற்சி எவ்வாறு செயல்படுகிறது என்பதை நேரடியாகக் கற்றுக்கொள்வதற்கும் நான் ஆவலுடன் இருக்கிறேன்.