Published on

ओपनएआई का O3 मॉडल: तर्कशक्ति और एआरसी एजीआई में एक बड़ी छलांग

लेखक
  • avatar
    नाम
    Ajax
    Twitter

ओपनएआई का ओ3 मॉडल एक महत्वपूर्ण विकास है जो तर्कशक्ति और एआरसी एजीआई (Abstraction and Reasoning Corpus Artificial General Intelligence) चुनौती में एक बड़ी छलांग का प्रतिनिधित्व करता है। यह मॉडल न केवल पिछले मॉडलों से बेहतर प्रदर्शन करता है, बल्कि एआई के भविष्य के लिए भी नए रास्ते खोलता है।

ओ3 मॉडल की मुख्य विशेषताएं

  • ओ1 मॉडल पर आधारित: ओ3 मॉडल ओ1 मॉडल की नींव पर बनाया गया है, जो स्वयं एक शक्तिशाली भाषा मॉडल है। ओ3 मॉडल ओ1 की क्षमताओं को बढ़ाता है, खासकर तर्क और समस्या-समाधान में।
  • बहु-उत्पादन सहमति: ओ1 मॉडल के सर्वोत्तम प्रदर्शन के लिए बहु-उत्पादन सहमति महत्वपूर्ण है। यह सभी तर्क चरणों पर लागू होता है, जिसका अर्थ है कि सर्वोत्तम परिणामों के लिए एकल आउटपुट स्ट्रीम पर निर्भर नहीं रहना चाहिए।
  • कोई ट्री सर्च नहीं: इस बात का कोई सबूत नहीं है कि ओ3 ने ट्री सर्च को जोड़कर अपने तर्क आर्किटेक्चर को बदला है। सभी दावे सिर्फ अफवाहें हैं। तर्क स्केलिंग कानून का मूल नियम यह है कि एक ही एकल-स्ट्रीम पीढ़ी से अधिक नमूने लेने से प्रदर्शन में सुधार हो सकता है।
  • मशीन लर्निंग का पुनरुत्थान: इस वर्ष, मशीन लर्निंग (RL) और संबंधित विधियों ने कृत्रिम बुद्धिमत्ता के केंद्र के रूप में खुद को फिर से स्थापित किया है।
  • सार्वजनिक उपलब्धता: ओ3-मिनी मॉडल 2025 के जनवरी के अंत तक सार्वजनिक रूप से उपलब्ध होने की उम्मीद है।

ओ3 मॉडल का प्रदर्शन

  • एआरसी एजीआई पुरस्कार: ओ3 मॉडल एआरसी एजीआई पुरस्कार में 85% से अधिक पूर्णता दर प्राप्त करने वाला पहला मॉडल है। ध्यान दें कि यह सार्वजनिक डेटासेट पर किया गया है, न कि परीक्षण डेटासेट पर, और लागत सीमाओं से परे है।
  • फ्रंटियर गणित बेंचमार्क: नए फ्रंटियर गणित बेंचमार्क में, प्रदर्शन 2% से बढ़कर 25% हो गया है।
  • प्रोग्रामिंग बेंचमार्क: सभी प्रमुख प्रोग्रामिंग बेंचमार्क में महत्वपूर्ण सुधार हुए हैं, जैसे कि SWE-Bench-Verified।
  • तेजी से प्रगति: यह सब मॉडल के पहले संस्करण की घोषणा के सिर्फ 3 महीने बाद हुआ है।

ओ3 मॉडल का प्रभाव

  • एआई अनुसंधान में तेजी: ओ3 मॉडल एआई अनुसंधान में तेजी लाएगा।
  • सॉफ्टवेयर इंजीनियरिंग में बदलाव: तर्क की लागत में कमी से सॉफ्टवेयर इंजीनियरिंग की भूमिका बदल जाएगी।
  • सुरक्षा और संरेखण: ओ1-स्तरीय मॉडल सुरक्षा और संरेखण अनुसंधान को बढ़ा सकते हैं, जो एक महत्वपूर्ण क्षेत्र है।

ओ3 मॉडल का अवलोकन

ओ3 मॉडल को "ओपनएआई के 12-दिवसीय लॉन्च इवेंट" के अंतिम दिन घोषित किया गया था। इस रिलीज ने कई क्षेत्रों में पहले के अत्याधुनिक मॉडलों (जैसे जेमिनी 1.5 प्रो और क्लाउड 3.5 सोनेट न्यू) को पछाड़ दिया है।

ओ1 श्रृंखला के मॉडलों के बारे में ब्लॉग पोस्ट और संबंधित चर्चाओं में, एक अक्सर अनदेखा किया गया विवरण हिस्टोग्राम में छायांकित क्षेत्रों का अर्थ है। ओ1 के पहले ब्लॉग पोस्ट में, पहले परिणाम ग्राफ के कैप्शन में इसका उल्लेख किया गया था: ठोस बार पास@1 सटीकता का प्रतिनिधित्व करते हैं, और छायांकित क्षेत्र 64 नमूनों का उपयोग करके बहुसंख्यक वोटिंग (सहमति) के प्रदर्शन का प्रतिनिधित्व करते हैं।

यह विवरण इंगित करता है कि बहु-उत्पादन सहमति ओ1 मॉडल के सर्वोत्तम प्रदर्शन के लिए महत्वपूर्ण है। यह सभी तर्क चरणों के लिए लागू होता है - सर्वोत्तम परिणामों के लिए एकल आउटपुट स्ट्रीम पर निर्भर नहीं रहना चाहिए। हालांकि, इसका मतलब यह नहीं है कि ट्री सर्च या किसी प्रकार के मध्यवर्ती प्रतिनिधित्व का उपयोग किया जाना चाहिए। ओ1 का प्रोफेशनल मोड, साथ ही एआरसी पुरस्कारों के परिणाम, इस समानांतर पीढ़ी पर निर्भर करते हैं ताकि पूर्ण उच्चतम स्कोर प्राप्त किया जा सके।

फ्रंटियर गणित बेंचमार्क पर गुणात्मक टिप्पणियों के लिए, फील्ड्स मेडल के दो विजेताओं की टिप्पणियों पर विचार करें। उनकी टिप्पणियां बेंचमार्क के सबसे कठिन भागों को संबोधित करती हैं, लेकिन यह इसके गुणात्मक लक्ष्य का अच्छी तरह से प्रतिनिधित्व करती हैं:

"ये प्रश्न अत्यंत चुनौतीपूर्ण हैं... मेरा मानना है कि वे कम से कम अगले कुछ वर्षों तक एआई को निराश करेंगे।" - टेरेंस ताओ, 2006 के फील्ड्स मेडल विजेता

"मुझे जो प्रश्न दिख रहे हैं वे मेरे शोध क्षेत्र से नहीं हैं, और वे ऐसे लगते हैं जिन्हें मैं पूरी तरह से हल नहीं कर सकता... वे IMO (अंतर्राष्ट्रीय गणितीय ओलंपियाड) के प्रश्नों की तुलना में एक स्तर अधिक कठिन लगते हैं।" - टिमोथी गोवर्स, 2006 के फील्ड्स मेडल विजेता

यह बेंचमार्क 7 नवंबर को पेश किया गया था और इसे एआई क्षमताओं में कुछ अनसुलझे खुले मोर्चों में से एक के रूप में सूचीबद्ध किया गया था। इस रिलीज ने ओपनएआई के ओ3 को दोहरे अंकों के स्कोर तक पहुंचने वाले एकमात्र मॉडल के रूप में स्थापित किया, और सीधे 25% तक पहुंच गया।

दूसरा अग्रणी परिणाम प्रोग्रामिंग के क्षेत्र में आया। एक लाइवस्ट्रीम में, ओपनएआई ने SWE-बेंच वेरीफाइड पर 71.7% स्कोर दिखाया (जो कुछ हद तक वर्तमान अत्याधुनिक स्तर है), साथ ही Codeforces (एक प्रोग्रामिंग प्रतियोगिता वेबसाइट) पर व्यापक परिणाम दिखाए।

ओ3 ने एक अप्रकाशित N मान के तहत सहमति मतदान के साथ 2727 का स्कोर हासिल किया, जो एक अंतर्राष्ट्रीय ग्रैंडमास्टर स्तर तक पहुंच गया, जो दुनिया भर के शीर्ष 200 मानव प्रतिस्पर्धी प्रोग्रामरों के बीच है। ओ3-मिनी का प्रदर्शन ओ1 से बेहतर है, जबकि लागत काफी कम है। 2024 में हमने जो रुझान देखे हैं, उसे देखते हुए, यह एक अधिक प्रभावशाली मॉडल बन सकता है जिसका उपयोग व्यापक उपयोगकर्ता आधार द्वारा किया जा सकता है। इससे ओ3 लाइवस्ट्रीम में अंतिम सफलता संभव हुई - एआरसी एजीआई चुनौती को प्रभावी ढंग से हल करना।

एआरसी मूल्यांकन का सामना करना

अमूर्त और तर्क कोष (एआरसी) एक कृत्रिम बुद्धिमत्ता मूल्यांकन पद्धति है जिसे फ्रांकोइस चोलेट ने 2019 के अपने पेपर "ऑन द मेजर ऑफ इंटेलिजेंस" में प्रस्तावित किया था। एआरसी मूल्यांकन को मानव बुद्धि के मूल्यांकन के करीब होने के लिए डिज़ाइन किया गया है:

हमने एल्गोरिथम सूचना सिद्धांत के आधार पर बुद्धि की एक नई औपचारिक परिभाषा प्रस्तावित की है, जो बुद्धि को कौशल अधिग्रहण दक्षता के रूप में वर्णित करती है, और सीमा, सामान्यीकरण कठिनाई, पूर्व ज्ञान और अनुभव की अवधारणाओं पर जोर देती है। इस परिभाषा के आधार पर, हमने सामान्य कृत्रिम बुद्धिमत्ता बेंचमार्क के डिजाइन के लिए दिशानिर्देशों का एक सेट प्रस्तावित किया। अंत में, हम एक बेंचमार्क प्रस्तुत करते हैं जो इन दिशानिर्देशों का सख्ती से पालन करता है - अमूर्त और तर्क कोष (एआरसी), जो स्पष्ट पूर्व ज्ञान के एक सेट पर बनाया गया है, जो यथासंभव मानव जन्मजात पूर्व ज्ञान के करीब है। हमारा मानना है कि एआरसी का उपयोग मानव जैसी सामान्य तरल बुद्धि को मापने के लिए किया जा सकता है, और कृत्रिम बुद्धिमत्ता प्रणालियों और मनुष्यों के बीच एक निष्पक्ष सामान्य बुद्धि तुलना को सक्षम करने के लिए किया जा सकता है।

एआरसी एजीआई पुरस्कार जून 2024 में 1 मिलियन डॉलर के पुरस्कार के साथ शुरू किया गया था, जो एक समाधान को पुरस्कृत करता है जो विशिष्ट मानदंडों को पूरा करता है और निजी एआरसी कार्यों के एक सेट को हल करता है। उस कार्य को "हल" करने के लिए माने जाने वाली सीमा 85% सटीकता प्राप्त करना है। आज, ओपनएआई और एआरसी पुरस्कार ने निम्नलिखित परिणाम साझा किए:

कीमतों के x-अक्ष को देखें, हम इस विषय पर बाद में वापस आएंगे।

ओ1-स्तरीय मॉडल से पहले, ओपनएआई का सबसे अच्छा मॉडल जीपीटी-4ओ केवल 5% सटीकता तक पहुंचा था। ओपनएआई द्वारा अपने नए तर्क मॉडल पर की गई तीव्र प्रगति को एआरसी पुरस्कार के सह-संस्थापक माइक नूप ने इस प्रकार संक्षेपित किया है:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 high (2024): 32%
  • o1 Pro (2024): लगभग 50%
  • o3 tuned low (2024): 76%
  • o3 tuned high (2024): 87%

जून में, यह व्यापक रूप से माना जाता था कि एआरसी-एजीआई को हल करना बेहद मुश्किल होगा। हालांकि, कुछ ही महीनों में इस धारणा को पूरी तरह से उलट दिया गया है। यहां तक कि क्यू* और अन्य तर्क विधियों के बारे में आशावादी लोगों ने भी इस हद तक सफलता की उम्मीद नहीं की थी।

चोलेट ने एआरसी पुरस्कार की आधिकारिक वेबसाइट पर अधिक विवरण साझा किए:

हमने दो एआरसी-एजीआई डेटासेट के साथ ओ3 का परीक्षण किया:

  • अर्ध-निजी मूल्यांकन: अतिव्यापीकरण का आकलन करने के लिए 100 निजी कार्य
  • सार्वजनिक मूल्यांकन: 400 सार्वजनिक कार्य ओपनएआई के मार्गदर्शन में, हमने दो कंप्यूटिंग स्तरों पर परीक्षण किया, चर नमूना आकार के साथ: 6 (कुशल मोड) और 1024 (अकुशल मोड, पूर्व की तुलना में 172 गुना अधिक गणना के साथ)।

परिणाम इस प्रकार हैं:

नोट: ओ3 की उच्च कंप्यूटिंग लागत के विशिष्ट डेटा का खुलासा नहीं किया गया है क्योंकि मूल्य निर्धारण और सुविधा उपलब्धता अभी भी निर्धारित की जानी है। गणना कम गणना कॉन्फ़िगरेशन की तुलना में लगभग 172 गुना अधिक है।

उदाहरण के लिए, यहाँ एक अनसुलझा प्रश्न है:

कई प्रश्न मनुष्यों के लिए बहुत सहज हैं। इन प्रश्नों को मॉडल में इनपुट करने के लिए, रंगों को संख्याओं के रूप में एन्कोड किया जाता है और संदर्भ के रूप में ग्रिड के रूप में इनपुट किया जाता है, जैसा कि ग्रेग काम्रड्ट ने नोट किया है:

तकनीकी रूप से, पुरस्कार अभी तक नहीं लिया गया है क्योंकि समाधान की लागत सीमा से अधिक है और यह ओपन-सोर्स नहीं है। प्रतियोगिता जारी है। कुछ वर्षों में, इस प्रकार की बुद्धि लगभग मुफ्त हो जाएगी। मुफ्त, जिसका अर्थ है कि तर्क चलाने की लागत उपयोगकर्ता विज्ञापन डेटा के मौद्रिक मूल्य से कम होगी।

वर्तमान में, एआरसी पुरस्कार ब्लॉग में उद्धृत ओ3 कीमतें (जिन्हें ओपनएआई के संचार में ओ1 के सापेक्ष कीमतों में बदल दिया गया है) ओ3 तकनीक के काम करने के बारे में कई विवरणों का खुलासा करती हैं।

ओ3 का आर्किटेक्चर, लागत और प्रशिक्षण

एआरसी एजीआई टीम ने सीधे ओपनएआई के साथ काम किया, उनके मॉडल के लिए मूल्य अनुमान प्राप्त किए। एपीआई में आधिकारिक लॉन्च के बाद ओ3 की अंतिम कीमत अलग होने की संभावना है। तर्क स्केलिंग कानून के महत्व के आधार पर, एआरसी-एजीआई टीम ने समाधान जमा करने के लिए एक निजी मूल्यांकन के लिए एक अतिरिक्त आवश्यकता जोड़ी। अपनी ब्लॉग पोस्ट में, टीम ने FLOPs के लिए एक प्रॉक्सी या कंप्यूटिंग संसाधनों के उपयोग की प्रत्यक्ष गणना के रूप में कुल लागत और प्रति कार्य लागत को दर्ज किया।

यह सार्वजनिक लीडरबोर्ड के बारे में एआरसी पुरस्कार घोषणा में एक नियम के अनुरूप है (जो 1 मिलियन डॉलर के पुरस्कार से संबंधित नहीं है):

$10,000USD 500 कार्यों को हल करने के लिए खर्च की जा सकने वाली रनिंग लागत की सीमा है (जिसमें सार्वजनिक मूल्यांकन सेट में 400 कार्य और एक नए अर्ध-निजी मूल्यांकन सेट में 100 कार्य शामिल हैं), जिसमें वाणिज्यिक API को कॉल करने की लागत शामिल है।

सार्वजनिक या अर्ध-सार्वजनिक मूल्यांकन सेट में 500 कार्यों में, ओ3 की लागत इस सीमा से कहीं अधिक है। एआरसी पुरस्कार से पता चलता है कि ओ3 की प्रति क्वेरी लागत $1,000 से अधिक है। उन्होंने मॉडल की प्रकृति के बारे में भी धारणाएं बनाईं। निम्नलिखित का उद्देश्य इस बारे में अटकलों को शांत करना है कि क्या ओ3 ने ओ1 से अलग प्रशिक्षण तकनीक को अपनाया है। विशेष रूप से, चोलेट ने स्पष्ट रूप से कहा कि वह अटकलें लगा रहे हैं:

वर्तमान में, हम केवल ओ3 के विशिष्ट कामकाज के बारे में अटकलें लगा सकते हैं। लेकिन ओ3 का मूल तंत्र टोकन स्पेस में प्राकृतिक भाषा कार्यक्रम खोज और निष्पादन प्रतीत होता है - परीक्षण के दौरान, मॉडल संभावित थॉट चेन (CoTs) स्पेस की खोज करेगा, जो कार्यों को हल करने के लिए आवश्यक चरणों का वर्णन करता है, एक तरह से जो अल्फाज़ेरो-शैली मोंटे कार्लो ट्री सर्च के समान हो सकता है। ओ3 के मामले में, खोज को किसी प्रकार के मूल्यांकनकर्ता मॉडल द्वारा निर्देशित किया जा सकता है।

एक बार फिर, एमसीटीएस (मोंटे कार्लो ट्री सर्च) के संदर्भ और धारणाएं भ्रामक हैं, लेकिन समझा जा सकता है, क्योंकि कई बुद्धिमान लोग ओ1 और ओ3 की क्षमता से हैरान हैं जो केवल एक एकल भाषा मॉडल के फॉरवर्ड पास के माध्यम से प्राप्त की जाती हैं।

मेरी एक हालिया पोस्ट में बताया गया है कि यह बड़े पैमाने पर मशीन लर्निंग प्रशिक्षण के माध्यम से कैसे प्राप्त किया जाता है, और यह बताता है कि क्यों ओपनएआई के कुछ ग्राफ तर्क चरण में कंप्यूटिंग लागत के बारे में भ्रामक हैं। ओपनएआई के कर्मचारियों ने इस बात पर भी जोर दिया है कि ओ3 "सिर्फ एक मशीन लर्निंग प्रशिक्षित मॉडल है"।

फिर भी, हम एआरसी टीम द्वारा दर्ज की गई लागतों के आधार पर, और ओ1 के लिए ओपनएआई की मूल्य निर्धारण (60.00/मिलियनआउटपुटटोकन)केसाथएकविश्लेषणकरतेहैं।एआरसीपुरस्कारपरिणामग्राफ़केअनुसार,पूर्णओ3कीप्रतिक्वेरीलागतलगभग60.00/मिलियन आउटपुट टोकन) के साथ एक विश्लेषण करते हैं। एआरसी पुरस्कार परिणाम ग्राफ़ के अनुसार, पूर्ण ओ3 की प्रति क्वेरी लागत लगभग 5000 है। कुल लागत को प्रति टोकन मूल्य से विभाजित करने पर, परिणाम यह है कि मॉडल प्रति प्रतिक्रिया 80 मिलियन टोकन उत्पन्न करता है, जो लंबे संदर्भ मॉडल में बहुत बड़ा सुधार किए बिना संभव नहीं है। इसलिए, विभिन्न खोज आर्किटेक्चर के बारे में अटकलें लगाई जाती हैं।

मुख्य बात एआरसी पुरस्कार ब्लॉग पोस्ट के कुछ विवरणों में है, जिसमें कहा गया है:

ओपनएआई के मार्गदर्शन में, हमने दो कंप्यूटिंग स्तरों पर परीक्षण किया, चर नमूना आकार के साथ: 6 (कुशल मोड) और 1024 (अकुशल मोड, पूर्व की तुलना में 172 गुना अधिक गणना के साथ)।

सेमीएनालिसिस के अनुसार, ओ1 प्रो सेल्फ-कंसिस्टेंसी विधि या एक साधारण कंसेंसस@N चेक का उपयोग करता है, जिसमें एक ही क्वेरी के कई समानांतर प्रतिक्रियाओं में से सबसे आम उत्तर का चयन करके प्रदर्शन में सुधार किया जाता है। यहां, नमूना आकार N कंसेंसस@N के मान के अनुरूप हो सकता है, यह दर्शाता है कि ओ3 का मूल्यांकन कॉन्फ़िगरेशन ग्राहक के लिए उपलब्ध ओ1 प्रो कॉन्फ़िगरेशन के करीब है, यानी 6 गुना अधिक गणना, साथ ही प्रत्येक प्रश्न के लिए 1024 गुना अधिक गणना का एक सुपर-उच्च कॉन्फ़िगरेशन।

तर्क का यह पैमाना लंबे समय तक सामान्य भुगतान करने वाले उपयोगकर्ताओं के लिए उपलब्ध नहीं होगा। अधिकांश उपयोगकर्ता केवल एक बार की पीढ़ी से लेकर कंसेंसस@10 तक के परिणाम तक पहुंचेंगे, जो ओ1 मॉडल के "प्रोफेशनल" संस्करण के विनिर्देशों पर निर्भर करता है।

यह मानते हुए कि प्रति मिलियन आउटपुट टोकन की कीमत $60 बनी हुई है, इसे 1024 स्ट्रीम से विभाजित करने का मतलब है कि मॉडल प्रति प्रतिक्रिया लगभग 78,000 टोकन उत्पन्न करता है। वास्तव में, ओ3 को एक बड़े बेस मॉडल से भी लाभ होता हुआ प्रतीत होता है, क्योंकि ओपनएआई द्वारा लाइवस्ट्रीम में दिखाए गए सभी लॉगरिदमिक गणना x-अक्ष से, ओ1 की गणना लागत में काफी वृद्धि हुई है। एक बड़े बेस मॉडल का उपयोग करके, ये संख्याएँ पूरी तरह से उचित हैं और एक अतिरिक्त "खोज" तत्व को नहीं दर्शाती हैं।

हाल के वर्षों में डीप लर्निंग में प्रगति को आगे बढ़ाने वाली मुख्य कहानी एक संभावित-समृद्ध क्षेत्र को खोजना और उस पर चढ़ते रहना है। पहली लहर इंटरनेट-स्केल प्रीट्रेनिंग से आई। अब, ओपनएआई ने मशीन लर्निंग प्रशिक्षण और लंबे संदर्भ तर्क का विस्तार करके चढ़ने के लिए एक नया रास्ता खोज लिया है। इस तथ्य को देखते हुए कि ओ3 ओपनएआई द्वारा ओ1 जारी करने के लगभग तीन महीने बाद आता है, सबसे सरल व्याख्या यह है कि यह एक ही आर्किटेक्चर और प्रशिक्षण विधियों का उपयोग करता है, केवल एक बड़े पैमाने पर।

इस बात का कोई प्रमाण नहीं है कि ओ3 ने ट्री सर्च को जोड़कर अपने तर्क आर्किटेक्चर को बदला है। सभी दावे सिर्फ अफवाहें हैं। तर्क स्केलिंग कानून का मूल नियम यह है कि एक ही एकल-स्ट्रीम पीढ़ी से अधिक नमूने लेने से प्रदर्शन में सुधार हो सकता है।

मुख्य प्रश्न यह है कि क्या ओ3 का बेस मॉडल ओरियन (ओपनएआई आंतरिक कोडनेम, संभवतः जीपीटी-5) है, या क्या नया बेस मॉडल केवल प्रशिक्षण के दौरान ओरियन से लाभान्वित हुआ है। यदि बेस मॉडल का आकार 2 से 5 गुना बढ़ जाता है, तो एआरसी पुरस्कारों से रिपोर्ट की गई एपीआई कीमतें पूरी तरह से अनुरूप हैं।

ओ3 के विशिष्ट विवरणों के बारे में अनिश्चितता बनी हुई है। एआरसी टीम द्वारा जारी किए गए ग्राफ में, ओ3 मॉडल को "(ट्यून्ड)" के रूप में लेबल किया गया है, लेकिन ओ3 के बारे में कोई विस्तृत विवरण उपलब्ध नहीं है। हालाँकि, जब हम प्रगति की प्रवृत्ति पर ध्यान केंद्रित करते हैं, तो यह स्पष्ट है कि ओ1-स्तर के मॉडल दीर्घकालिक रूप से बने रहेंगे।

अंत में, विनम्र रहने के लिए, यहां एक एआरसी पुरस्कार का उदाहरण दिया गया है जिसे ओ3 हल करने में विफल रहा। यह बहुत सरल है।

हमारे पास अभी भी एक लंबा रास्ता तय करना है, लेकिन आपको उत्साहित होना चाहिए और इन मॉडलों के व्यापक उपयोग की वास्तविकता की उम्मीद करनी चाहिए जो अधिकांश लोगों की अपेक्षा से पहले आएगी। यह मानना ​​सबसे सुरक्षित विकल्प है कि एआई में सुधार जारी रहेगा।

2024: आरएल की वापसी

आज पहले, एन्थ्रोपिक ने एन्थ्रोपिक बनाने की प्रक्रिया के बारे में एक वीडियो जारी किया, जिसमें कई सह-संस्थापकों ने चर्चा में भाग लिया। इसमें एक अप्रत्याशित विवरण सह-संस्थापक और सीईओ डारियो अमोदेई द्वारा साझा किया गया था:

"... इन मॉडलों को स्केल करने का पूरा कारण यह है कि उनकी बुद्धिमत्ता हमें उनके आधार पर आरएलएचएफ (मानव प्रतिक्रिया के साथ मशीन लर्निंग) करने के लिए पर्याप्त नहीं है।"

आधुनिक आरएलएचएफ अवधारणा के संस्थापकों में से एक के रूप में, डारियो ने शायद पहले ही सहज रूप से अनुमान लगा लिया था कि सभी सूक्ष्म-ट्यूनिंग तकनीकों में प्रगति आने वाली है। आरएलएचएफ की क्षमता के बारे में यह दृष्टिकोण अधिकांश चिकित्सकों की तुलना में बहुत व्यापक और दूरदर्शी है।

इस वर्ष, मशीन लर्निंग (आरएल) और संबंधित विधियों ने कृत्रिम बुद्धिमत्ता के केंद्र के रूप में खुद को फिर से स्थापित किया है।

इस लेख को लिखने की प्रक्रिया में मैंने खुद को 2025 में इस तरह के तर्क-आधारित भाषा मॉडल को प्रशिक्षित करने के लिए राजी किया। यह ऐसा महसूस होता है जैसे 2024 में तकनीकी कंपनियों के लिए, मानक प्रीट्रेनिंग उद्योग की एक बुनियादी आवश्यकता बन गई है। यह अनुमान लगाया जा सकता है कि ओ1-शैली के मॉडल भविष्य में लंबे समय तक आर्टिफिशियल इंटेलिजेंस टूलबॉक्स में डिफ़ॉल्ट टूल होंगे। मैं इस नए दृष्टिकोण को अपनाने और इन मॉडलों के प्रशिक्षण के कार्य सिद्धांतों को स्वयं सीखने के लिए बहुत उत्सुक हूं।