- Published on
मिनीमॅक्सने 456B पॅरामीटर्स आणि 4M संदर्भ असलेले ओपन-सोर्स मॉडेल सादर केले
मिनीमॅक्सने एजंट युगाचा स्वीकार केला
एआय समुदाय 2025 हे वर्ष एआय एजंटचे असेल, असा अंदाज वर्तवत आहे. OpenAI चे सॅम अल्टमन, मेटाचे मार्क झुकरबर्ग आणि Nvidia चे जेन्सन हुआंग यांसारख्या उद्योग क्षेत्रातील प्रमुख व्यक्तींनी एआय एजंट्स कार्यबल आणि आयटी परिदृश्यावर महत्त्वपूर्ण प्रभाव टाकतील, असे मत व्यक्त केले आहे. या उदयोन्मुख ट्रेंडला प्रतिसाद म्हणून, मिनीमॅक्सने आपले नवीनतम मूलभूत भाषिक मॉडेल, MiniMax-Text-01 आणि व्हिज्युअल-मल्टीमॉडल मॉडेल, MiniMax-VL-01 ओपन-सोर्स केले आहे.
नवीन मॉडेलमधील मुख्य सुधारणा
या नवीन मॉडेल्समधील एक महत्त्वाचे वैशिष्ट्य म्हणजे एक नवीन रेखीय लक्ष केंद्रित करण्याची यंत्रणा, जी संदर्भ विंडो लक्षणीयरीत्या वाढवते. मिनीमॅक्सचे मॉडेल एकाच वेळी 4 दशलक्ष टोकन्सवर प्रक्रिया करू शकतात, जे इतर मॉडेल्सपेक्षा 20 ते 32 पट जास्त आहे. हे तंत्रज्ञान एजंट ऍप्लिकेशन्ससाठी अत्यंत महत्त्वाचे आहे, ज्यामध्ये मेमरी व्यवस्थापित करण्यासाठी आणि अनेक एजंट्समध्ये सहयोग साधण्यासाठी मोठ्या संदर्भ विंडोची आवश्यकता असते.
मिनीमॅक्सच्या ओपन-सोर्स मॉडेलला चालना देणारी नावीन्यपूर्णता
MiniMax-Text-01 हे अनेक नवकल्पनांचे फलित आहे, त्यापैकी काही खालीलप्रमाणे आहेत:
- लाइटनिंग अटेंशन: हे रेखीय लक्ष केंद्रित करण्याचे एक स्वरूप आहे, जे ट्रान्सफॉर्मर आर्किटेक्चरची गणनात्मक जटिलता कमी करते. हे 'राइट प्रोडक्ट कर्नल ट्रिक' द्वारे साध्य केले जाते, ज्यामुळे लक्ष केंद्रित करणे अधिक कार्यक्षम होते.
- हायब्रिड-लाइटनिंग: हे लाइटनिंग अटेंशन आणि सॉफ्टमॅक्स अटेंशनचे मिश्रण आहे. प्रत्येक आठ स्तरांवर लाइटनिंग अटेंशन सॉफ्टमॅक्स अटेंशनने बदलले जाते. हा दृष्टीकोन कार्यक्षमता टिकवून ठेवतो आणि स्केलिंग क्षमता सुधारतो.
- मिक्सचर ऑफ एक्सपर्ट्स (MoE): दाट मॉडेल्सच्या तुलनेत MoE मॉडेल्स लक्षणीय सुधारणा दर्शवतात, विशेषत: जेव्हा गणनात्मक भार समान असतो. मिनीमॅक्सने MoE मॉडेल्स स्केल करताना राउटिंग कोसळणे टाळण्यासाठी एक 'ऑलगॅदर कम्युनिकेशन स्टेप' देखील सादर केली आहे.
- संगणकीय ऑप्टिमायझेशन: मिनीमॅक्सने MoE आर्किटेक्चरसाठी टोकन-ग्रुपिंग आधारित ओव्हरलॅप योजनेचा वापर करून कम्युनिकेशन लोड कमी केले. लांब-संदर्भ प्रशिक्षणासाठी, त्यांनी डेटा-पॅकिंग तंत्राचा वापर केला, जिथे प्रशिक्षण नमुने अनुक्रम आकारानुसार एंड-टू-एंड जोडलेले असतात. त्यांनी लाइटनिंग अटेंशनसाठी चार ऑप्टिमायझेशन धोरणे देखील स्वीकारली: बॅच्ड कर्नल फ्यूजन, स्वतंत्र प्रीफिल आणि डीकोड एक्झिक्युशन, मल्टी-लेव्हल पॅडिंग आणि स्ट्राइड बॅच्ड मॅट्रिक्स मल्टिप्लिकेशन एक्सपेंशन.
या नवकल्पनांमुळे 32 तज्ञांसह 456 अब्ज पॅरामीटर एलएलएम तयार झाले आहे, जिथे प्रत्येक टोकन 45.9 अब्ज पॅरामीटर्स सक्रिय करते.
MiniMax-Text-01 चे बेंचमार्क कार्यप्रदर्शन
MiniMax-Text-01 ने अनेक बेंचमार्कमध्ये उत्कृष्ट कामगिरी दर्शविली आहे, जी GPT-4o आणि Claude 3.5 Sonnet सारख्या बंद-स्रोत मॉडेल्सना तसेच Qwen2.5 आणि Llama 3.1 सारख्या ओपन-सोर्स मॉडेल्सना टक्कर देते किंवा त्याहूनही सरस ठरते.
- HumanEval मध्ये, MiniMax-Text-01 ने Instruct Qwen2.5-72B पेक्षा चांगली कामगिरी केली आहे.
- GPQA डायमंड डेटासेटवर 54.4 गुण मिळवून, MiniMax-Text-01 ने बहुतेक फाइन-ट्यून केलेल्या LLMs आणि नवीनतम GPT-4o ला मागे टाकले आहे.
- MiniMax-Text-01 ने MMLU, IFEval आणि Arena-Hard मध्ये देखील उच्च तीन गुण मिळवले आहेत, जे ज्ञान लागू करण्याची आणि वापरकर्त्यांच्या प्रश्नांची प्रभावीपणे उत्तरे देण्याची क्षमता दर्शवतात.
उत्कृष्ट प्रासंगिक क्षमता
MiniMax-Text-01 ची विस्तारित संदर्भ विंडो एक महत्त्वाचा फरक आहे:
- Ruler बेंचमार्कमध्ये, MiniMax-Text-01 64k पर्यंतच्या संदर्भ लांबीपर्यंत इतर मॉडेल्सप्रमाणेच कार्य करते, परंतु 128k च्या पुढे त्याची कार्यक्षमता लक्षणीय वाढते.
- मॉडेल लाँगबेंच v2 च्या लांब-संदर्भ तर्क कार्यांमध्ये देखील उत्कृष्ट कार्यप्रदर्शन दर्शवते.
- MTOB बेंचमार्कद्वारे सत्यापित केल्यानुसार, MiniMax-Text-01 ची लांब-संदर्भ शिक्षण क्षमता अत्याधुनिक आहे.
वास्तविक जगातील अनुप्रयोग
MiniMax-Text-01 ची क्षमता बेंचमार्कच्या पलीकडेही विस्तारित आहे.
- हे मॉडेल भाषेतील बारकावे आणि भावनिकतेसह एक गाणे यासारखी सर्जनशील सामग्री तयार करू शकते.
- हे मॉडेल कलामांगसारख्या कमी सामान्य भाषेचे भाषांतर करणे, दिलेल्या सूचना, व्याकरण आणि शब्दसंग्रह वापरून जटिल कार्ये करू शकते.
- हे लांब संभाषणांमध्ये उत्कृष्ट स्मृती क्षमता दर्शवते.
MiniMax-VL-01: एक व्हिज्युअल-लँग्वेज मॉडेल
MiniMax-Text-01 वर आधारित, मिनीमॅक्सने एक मल्टीमॉडल आवृत्ती, MiniMax-VL-01 विकसित केली आहे, जी एक इमेज एन्कोडर आणि अडॅप्टर एकत्रित करते. हे मॉडेल व्हिज्युअल एन्कोडिंगसाठी ViT वापरते, ज्यात इमेज ऍडॉप्टेशनसाठी दोन-स्तरीय MLP प्रोजेक्टर आहे. या मॉडेलने मालकीच्या डेटासेट आणि मल्टी-स्टेज प्रशिक्षण धोरणाचा वापर करून इमेज-लँग्वेज डेटासह सतत प्रशिक्षण घेतले.
MiniMax-VL-01 विविध बेंचमार्कमध्ये चांगली कामगिरी दर्शवते, अनेकदा इतर SOTA मॉडेल्सशी जुळते किंवा त्याहूनही सरस ठरते. हे मॉडेल नेव्हिगेशन नकाशांसारख्या जटिल व्हिज्युअल डेटाचे विश्लेषण करण्यास सक्षम असल्याचे सिद्ध झाले आहे.
एआय एजंट्सचे भविष्य
मिनीमॅक्स संदर्भ विंडो क्षमतेच्या सीमांना पुढे नेत आहे. सॉफ्टमॅक्स अटेंशन काढून टाकून अनंत संदर्भ विंडो सक्षम करणार्या आर्किटेक्चरमध्ये सतत संशोधन करत आहे. कंपनी एआय एजंट्ससाठी मल्टीमॉडल मॉडेल्सचे महत्त्व ओळखते, कारण अनेक वास्तविक-जगातील कार्यांना व्हिज्युअल आणि टेक्स्ट्युअल आकलनाची आवश्यकता असते. मिनीमॅक्स एआय एजंट्स तयार करण्याचे उद्दिष्ट ठेवते जे नैसर्गिक, प्रवेशयोग्य आणि सर्वव्यापी असतील आणि भौतिक जगाशी संवाद साधण्याची क्षमता ठेवतील.