- Published on
मूनशॉट AI का Kimi k1.5 मॉडल: OpenAI के o1 को टक्कर
मूनशॉट AI का Kimi k1.5 मॉडल: AI में एक नया अध्याय
कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में, मूनशॉट AI द्वारा Kimi k1.5 मल्टीमॉडल मॉडल के अनावरण के साथ एक महत्वपूर्ण छलांग लगाई गई है। इस अभूतपूर्व मॉडल ने OpenAI के पूर्ण संस्करण o1 के प्रदर्शन स्तरों को टक्कर दी है, जो पहले OpenAI के बाहर किसी अन्य इकाई द्वारा अप्राप्य था। यह विकास उन्नत AI क्षमताओं की खोज में एक नया अध्याय दर्शाता है, जो वैश्विक प्रतिस्पर्धा के सामने घरेलू नवाचार की क्षमता को प्रदर्शित करता है।
Kimi k1.5 की असाधारण क्षमताएं
Kimi k1.5 मॉडल विभिन्न क्षेत्रों में अपनी व्यापक क्षमताओं के लिए खड़ा है, जिसमें गणित, कोडिंग और मल्टीमॉडल तर्क शामिल हैं। इन क्षेत्रों में इसका प्रदर्शन न केवल पूर्ण o1 संस्करण के तुलनीय है, बल्कि कुछ पहलुओं में इससे अधिक है। विशेष रूप से, kimi-k1.5-short संस्करण एक अत्याधुनिक (SOTA) शॉर्ट चेन-ऑफ-थॉट (CoT) मॉडल के रूप में उभरता है, जो GPT-4o और Claude 3.5 Sonnet को 550% से अधिक से मात देता है। यह महत्वपूर्ण प्रगति मॉडल की असाधारण क्षमताओं और AI प्रदर्शन के लिए बेंचमार्क को फिर से परिभाषित करने की इसकी क्षमता को रेखांकित करती है।
पारदर्शिता और सहयोग की भावना
मूनशॉट AI की उपलब्धि केवल एक तकनीकी मील का पत्थर नहीं है, बल्कि पारदर्शिता और सहयोगात्मक भावना का प्रमाण है जो अक्सर प्रतिस्पर्धी AI परिदृश्य में गायब होती है। अपनी तकनीकी रिपोर्ट प्रकाशित करके, मूनशॉट AI व्यापक तकनीकी समुदाय को उनके काम की जांच करने, सीखने और योगदान करने के लिए आमंत्रित करता है। यह कदम उनके इस विश्वास को रेखांकित करता है कि कृत्रिम सामान्य बुद्धिमत्ता (AGI) की यात्रा एक सामूहिक प्रयास है, जिसमें विविध प्रतिभाओं और दृष्टिकोणों की भागीदारी की आवश्यकता है।
व्यापक परीक्षण और SOTA स्थिति
Kimi k1.5 मॉडल के व्यापक परीक्षण से कई प्रमुख क्षेत्रों में इसकी SOTA स्थिति का पता चलता है। लॉन्ग-CoT मोड में, यह गणित, कोडिंग और मल्टीमॉडल तर्क में OpenAI o1 के आधिकारिक रिलीज के प्रदर्शन से मेल खाता है। AIME (77.5), MATH 500 (96.2), Codeforces (94वां प्रतिशतक), और MathVista (74.9) जैसे बेंचमार्क पर इसके स्कोर इसकी क्षमता के सूचक हैं। यह उपलब्धि OpenAI के बाहर किसी कंपनी द्वारा पूर्ण o1 प्रदर्शन स्तर तक पहुंचने का पहला उदाहरण है।
इसके अलावा, शॉर्ट-CoT मोड में, Kimi k1.5 मॉडल ने वैश्विक SOTA प्रदर्शन का प्रदर्शन किया है, जो GPT-4o और Claude 3.5 Sonnet को काफी हद तक पार कर गया है। AIME (60.8), MATH500 (94.6), और LiveCodeBench (47.3) पर इसके स्कोर शॉर्ट चेन-ऑफ-थॉट तर्क में इसकी असाधारण क्षमताओं के प्रमाण हैं। ये परिणाम केवल संख्याएँ नहीं हैं; वे मल्टीमॉडल AI मॉडल की क्षमताओं में एक प्रतिमान बदलाव का प्रतिनिधित्व करते हैं।
नवाचार और सुदृढीकरण सीखना
Kimi k1.5 मॉडल का विकास भाग्य का झटका नहीं था, बल्कि एक जानबूझकर और नवीन दृष्टिकोण का परिणाम था। मूनशॉट AI की टीम ने माना कि केवल प्री-ट्रेनिंग के दौरान मापदंडों को बढ़ाने से वांछित परिणाम नहीं मिलेंगे। उन्होंने सुधार के एक प्रमुख क्षेत्र के रूप में सुदृढीकरण सीखने-आधारित पोस्ट-ट्रेनिंग की ओर रुख किया। यह दृष्टिकोण मॉडल को इनाम-आधारित अन्वेषण के माध्यम से अपने प्रशिक्षण डेटा का विस्तार करने की अनुमति देता है, इस प्रकार इसकी कम्प्यूटेशनल क्षमताओं को बढ़ाता है।
तकनीकी रिपोर्ट में टीम के सुदृढीकरण सीखने (RL) प्रशिक्षण तकनीकों, मल्टीमॉडल डेटा व्यंजनों और बुनियादी ढांचे के अनुकूलन की खोज का विवरण दिया गया है। उनका RL ढांचा, विशेष रूप से, सीधा और प्रभावी दोनों है, जो मोंटे कार्लो ट्री सर्च और वैल्यू फ़ंक्शंस जैसी अधिक जटिल तकनीकों से बचता है। उन्होंने long2short तकनीक भी पेश की, जो शॉर्ट-CoT मॉडल के प्रदर्शन को बढ़ाने के लिए लॉन्ग-CoT मॉडल का लाभ उठाती है।
RL ढांचे के महत्वपूर्ण तत्व
टीम के RL ढांचे के दो महत्वपूर्ण तत्व हैं: लंबी संदर्भ स्केलिंग और बेहतर नीति अनुकूलन। संदर्भ विंडो को 128k तक स्केल करके, उन्होंने मॉडल प्रदर्शन में निरंतर सुधार देखा। वे प्रशिक्षण दक्षता में सुधार के लिए आंशिक रोलआउट का भी उपयोग करते हैं, नए लोगों को नमूना देने के लिए पुराने प्रक्षेपवक्रों का पुन: उपयोग करते हैं। टीम ने लॉन्ग-CoT के साथ एक सुदृढीकरण सीखने का सूत्र भी निकाला, जो मजबूत नीति अनुकूलन के लिए ऑनलाइन मिरर डिसेंट के एक प्रकार का उपयोग करता है।
long2short तकनीक
long2short तकनीक में कई विधियां शामिल हैं, जिनमें मॉडल मर्जिंग, सबसे छोटा अस्वीकृति नमूनाकरण, DPO और long2short RL शामिल हैं। मॉडल मर्जिंग बेहतर टोकन दक्षता प्राप्त करने के लिए लॉन्ग-CoT और शॉर्ट-CoT मॉडल को जोड़ती है। सबसे छोटा अस्वीकृति नमूनाकरण ठीक-ट्यूनिंग के लिए सबसे छोटा सही प्रतिक्रिया का चयन करता है। DPO प्रशिक्षण डेटा के लिए लघु और लंबी प्रतिक्रियाओं के जोड़े का उपयोग करता है। Long2short RL में लंबाई दंड के साथ एक अलग प्रशिक्षण चरण शामिल है।
भविष्य की योजनाएं
आगे देखते हुए, मूनशॉट AI अपने k-सीरीज़ सुदृढीकरण सीखने के मॉडल के उन्नयन में तेजी लाने के लिए प्रतिबद्ध है। उनका लक्ष्य अधिक तौर-तरीकों, व्यापक क्षमताओं और बेहतर सामान्य क्षमताओं को पेश करना है। यह महत्वाकांक्षी दृष्टिकोण उन्हें वैश्विक AI परिदृश्य में एक प्रमुख खिलाड़ी के रूप में स्थापित करता है, जो OpenAI जैसे स्थापित खिलाड़ियों के प्रभुत्व को चुनौती देने के लिए तैयार है।
घरेलू नवाचार का प्रतीक
Kimi k1.5 मॉडल केवल एक तकनीकी उपलब्धि से कहीं अधिक है; यह AI क्षेत्र में घरेलू नवाचार की क्षमता का प्रतीक है। अपने असाधारण प्रदर्शन और अपने प्रशिक्षण विवरणों को खुले तौर पर साझा करने के साथ, Kimi k1.5 दुनिया भर में AI विकास के लिए एक नया मानक स्थापित करता है। इसकी रिलीज की प्रत्याशा अधिक है, और इसका प्रभाव गहरा होने की उम्मीद है।