Published on

किमी k1.5: ओपनएआयच्या o1 मॉडेलला टक्कर देणारे मल्टीमॉडल एआय

लेखक
  • avatar
    नाव
    Ajax
    Twitter

मूनशॉट एआयचे किमी k1.5 मॉडेल: एक नवीन बेंचमार्क

कृत्रिम बुद्धिमत्तेच्या जगात, मूनशॉट एआयने किमी k1.5 मल्टीमॉडल मॉडेल सादर करून एक महत्त्वपूर्ण झेप घेतली आहे. हे मॉडेल ओपनएआयच्या पूर्ण आवृत्ती o1 च्या बरोबरीने कामगिरी करते, जे यापूर्वी ओपनएआय व्यतिरिक्त इतर कोणत्याही संस्थेने साध्य केलेले नव्हते. हा विकास प्रगत एआय क्षमतांच्या शोधात एक नवीन अध्याय आहे, जो जागतिक स्पर्धेच्या पार्श्वभूमीवर देशांतर्गत नवकल्पनांची क्षमता दर्शवतो.

किमी k1.5 मॉडेल विविध क्षेत्रांमध्ये, जसे की गणित, कोडिंग आणि मल्टीमॉडल तर्क, यांमध्ये आपल्या व्यापक क्षमतांसाठी ओळखले जाते. या क्षेत्रांमधील त्याची कामगिरी केवळ o1 आवृत्तीच्या तुलनेतच नाही, तर काही बाबतीत त्याहूनही सरस आहे. विशेष म्हणजे, किमी-k1.5-शॉर्ट प्रकार एक अत्याधुनिक (SOTA) शॉर्ट चेन-ऑफ-थॉट (CoT) मॉडेल म्हणून उदयास आले आहे, जे GPT-4o आणि Claude 3.5 Sonnet पेक्षा 550% अधिक चांगली कामगिरी करते. ही महत्त्वपूर्ण प्रगती मॉडेलची असाधारण क्षमता आणि एआय कामगिरीसाठी बेंचमार्कची पुनर्रचना करण्याची क्षमता अधोरेखित करते.

पारदर्शकता आणि सहकार्याचे महत्त्व

मूनशॉट एआयची कामगिरी केवळ एक तांत्रिक मैलाचा दगड नाही, तर स्पर्धात्मक एआय क्षेत्रात अनेकदा नसलेल्या पारदर्शकतेचा आणि सहकार्याच्या भावनेचा पुरावा आहे. त्यांचे तांत्रिक अहवाल प्रकाशित करून, मूनशॉट एआय व्यापक तंत्रज्ञान समुदायाला त्यांच्या कामाचे परीक्षण करण्यास, त्यातून शिकण्यास आणि योगदान देण्यास आमंत्रित करते. कृत्रिम सामान्य बुद्धिमत्तेच्या (AGI) दिशेने प्रवास एक सामूहिक प्रयत्न आहे, ज्यामध्ये विविध प्रतिभा आणि दृष्टिकोन असणे आवश्यक आहे, यावर त्यांचा विश्वास आहे.

किमी k1.5 ची उत्कृष्ट कामगिरी

किमी k1.5 मॉडेलच्या व्यापक चाचणीतून अनेक प्रमुख क्षेत्रांमध्ये त्याची SOTA स्थिती दिसून येते. लाँग-CoT मोडमध्ये, ते गणित, कोडिंग आणि मल्टीमॉडल तर्कामध्ये ओपनएआय o1 च्या अधिकृत प्रकाशनाच्या कामगिरीशी जुळते. AIME (77.5), MATH 500 (96.2), Codeforces (94 वा परसेंटाइल) आणि MathVista (74.9) सारख्या बेंचमार्क्सवरील त्याचे गुण त्याची क्षमता दर्शवतात. ओपनएआय व्यतिरिक्त इतर कोणत्याही कंपनीने o1 च्या पूर्ण कामगिरी पातळीपर्यंत पोहोचण्याची ही पहिलीच वेळ आहे.

शिवाय, शॉर्ट-CoT मोडमध्ये, किमी k1.5 मॉडेलने जागतिक SOTA कामगिरी दर्शविली आहे, जी GPT-4o आणि Claude 3.5 Sonnet पेक्षा खूपच सरस आहे. AIME (60.8), MATH500 (94.6) आणि LiveCodeBench (47.3) वरील त्याचे गुण शॉर्ट चेन-ऑफ-थॉट तर्कातील त्याच्या असाधारण क्षमतांचे पुरावे आहेत. हे आकडे केवळ संख्या नाहीत; ते मल्टीमॉडल एआय मॉडेलच्या क्षमतांमध्ये एक मोठे बदल दर्शवतात.

नविन दृष्टिकोन आणि तंत्रज्ञान

किमी k1.5 मॉडेलचा विकास केवळ नशिबाचा भाग नव्हता, तर तो एक हेतुपुरस्सर आणि नविन दृष्टिकोनाचा परिणाम होता. मूनशॉट एआयच्या टीमने हे ओळखले की, केवळ प्री-ट्रेनिंग दरम्यान पॅरामीटर्स वाढवल्याने अपेक्षित परिणाम मिळणार नाहीत. त्यांनी सुधारणेसाठी एक महत्त्वाचे क्षेत्र म्हणून रीइन्फोर्समेंट लर्निंग-आधारित पोस्ट-ट्रेनिंगकडे लक्ष केंद्रित केले. हा दृष्टिकोन मॉडेलला रिवॉर्ड-आधारित एक्सप्लोरेशनद्वारे त्याचे प्रशिक्षण डेटा वाढवण्यास मदत करतो, ज्यामुळे त्याची संगणकीय क्षमता वाढते.

तांत्रिक अहवालात टीमने रीइन्फोर्समेंट लर्निंग (RL) प्रशिक्षण तंत्र, मल्टीमॉडल डेटा रेसिपी आणि पायाभूत सुविधा ऑप्टिमायझेशनच्या शोधाचे तपशील दिले आहेत. त्यांचे RL फ्रेमवर्क, विशेषतः, सोपे आणि प्रभावी आहे, जे मोंटे कार्लो ट्री सर्च आणि व्हॅल्यू फंक्शन्ससारख्या अधिक जटिल तंत्रांचा वापर टाळते. त्यांनी लाँग2शॉर्ट तंत्राचा देखील परिचय करून दिला, जे शॉर्ट-CoT मॉडेलची कार्यक्षमता वाढवण्यासाठी लाँग-CoT मॉडेलचा वापर करते.

RL फ्रेमवर्कची मुख्य तत्त्वे

टीमच्या RL फ्रेमवर्कला दोन महत्त्वपूर्ण घटक आधार देतात: लाँग कॉन्टेक्स्ट स्केलिंग आणि सुधारित पॉलिसी ऑप्टिमायझेशन. कॉन्टेक्स्ट विंडो 128k पर्यंत वाढवून, त्यांनी मॉडेलच्या कार्यक्षमतेत सतत सुधारणा पाहिली. प्रशिक्षण कार्यक्षमता सुधारण्यासाठी ते आंशिक रोलआउटचा देखील वापर करतात, जुन्या मार्गांचा पुनर्वापर करून नवीन नमुने तयार करतात. टीमने लाँग-CoT सह रीइन्फोर्समेंट लर्निंग फॉर्म्युला देखील तयार केला आहे, जो मजबूत पॉलिसी ऑप्टिमायझेशनसाठी ऑनलाइन मिरर डिसेंटचा एक प्रकार वापरतो.

लाँग2शॉर्ट तंत्र

लाँग2शॉर्ट तंत्रामध्ये मॉडेल मर्जिंग, शॉर्टेस्ट रिजेक्शन सॅम्पलिंग, DPO आणि लाँग2शॉर्ट RL यांसारख्या अनेक पद्धतींचा समावेश आहे. मॉडेल मर्जिंगमध्ये लाँग-CoT आणि शॉर्ट-CoT मॉडेल एकत्र करून चांगले टोकन कार्यक्षमते साध्य केली जाते. शॉर्टेस्ट रिजेक्शन सॅम्पलिंगमध्ये फाइन-ट्यूनिंगसाठी सर्वात लहान योग्य प्रतिसाद निवडला जातो. DPO प्रशिक्षण डेटासाठी लहान आणि लांब प्रतिसादांच्या जोड्या वापरते. लाँग2शॉर्ट RL मध्ये लांबीच्या दंडासहित एक स्वतंत्र प्रशिक्षण टप्पा असतो.

भविष्यातील योजना

भविष्यात, मूनशॉट एआय आपल्या k-सिरीज रीइन्फोर्समेंट लर्निंग मॉडेलची श्रेणी सुधारण्यासाठी वचनबद्ध आहे. त्यांचे उद्दिष्ट अधिक पद्धती, व्यापक क्षमता आणि वर्धित सामान्य क्षमता सादर करणे आहे. ही महत्त्वाकांक्षी दृष्टी त्यांना जागतिक एआय क्षेत्रात एक महत्त्वाचा खेळाडू म्हणून स्थापित करते, जे ओपनएआयसारख्या स्थापित खेळाडूंना आव्हान देण्यासाठी सज्ज आहेत.

किमी k1.5 मॉडेल केवळ एक तांत्रिक यश नाही; तर ते एआय क्षेत्रात देशांतर्गत नवकल्पनांच्या क्षमतेचे प्रतीक आहे. त्याच्या असाधारण कामगिरीमुळे आणि प्रशिक्षणाचे तपशील खुल्या स्वरूपात सामायिक केल्यामुळे, किमी k1.5 जगभरातील एआय विकासासाठी एक नवीन मानक स्थापित करते. त्याच्या प्रकाशनाची उत्सुकता खूप जास्त आहे आणि त्याचा प्रभाव खूप मोठा असेल अशी अपेक्षा आहे.