Published on

मिनीमैक्स ने ओपन-सोर्स मॉडल 456B पैरामीटर 4M कॉन्टेक्स्ट का अनावरण किया

लेखक
  • avatar
    नाम
    Ajax
    Twitter

मिनीमैक्स का एजेंट युग को अपनाना

AI समुदाय में 2025 को AI एजेंटों का वर्ष होने की भविष्यवाणियां जोरों पर हैं। OpenAI के Sam Altman, Meta के Mark Zuckerberg और Nvidia के Jensen Huang जैसे उद्योग के नेताओं ने सुझाव दिया है कि AI एजेंट कार्यबल और IT परिदृश्य पर महत्वपूर्ण प्रभाव डालेंगे। मिनीमैक्स ने अपने नवीनतम आधारभूत भाषा मॉडल, MiniMax-Text-01 और दृश्य-बहुविध मॉडल, MiniMax-VL-01 को ओपन-सोर्स करके इस उभरती प्रवृत्ति का जवाब दिया है।

मिनीमैक्स के ओपन-सोर्स मॉडल को चलाने वाले नवाचार

इन नए मॉडलों की एक प्रमुख नवाचार एक उपन्यास रैखिक ध्यान तंत्र का कार्यान्वयन है, जो संदर्भ विंडो को महत्वपूर्ण रूप से विस्तारित करता है। मिनीमैक्स के मॉडल एक बार में 4 मिलियन टोकन संसाधित कर सकते हैं, जो अन्य मॉडलों की तुलना में 20 से 32 गुना अधिक है। यह उन्नति एजेंट अनुप्रयोगों के लिए महत्वपूर्ण है, जिन्हें मेमोरी और कई एजेंटों के बीच सहयोग का प्रबंधन करने के लिए लंबी संदर्भ विंडो की आवश्यकता होती है।

MiniMax-Text-01 कई नवाचारों का परिणाम है, जिनमें शामिल हैं:

  • लाइटनिंग अटेंशन: रैखिक ध्यान का एक रूप जो ट्रांसफार्मर आर्किटेक्चर की कम्प्यूटेशनल जटिलता को द्विघात से रैखिक तक कम करता है। यह एक सही उत्पाद कर्नेल ट्रिक के माध्यम से प्राप्त किया जाता है, जो ध्यान की अधिक कुशल गणना की अनुमति देता है।
  • हाइब्रिड-लाइटनिंग: लाइटनिंग अटेंशन और सॉफ्टमैक्स अटेंशन का एक संयोजन, जहां लाइटनिंग अटेंशन को हर आठ परतों में सॉफ्टमैक्स अटेंशन से बदल दिया जाता है। यह दृष्टिकोण दक्षता बनाए रखते हुए स्केलिंग क्षमताओं में सुधार करता है।
  • विशेषज्ञों का मिश्रण (MoE): सघन मॉडलों की तुलना में, MoE मॉडल महत्वपूर्ण प्रदर्शन सुधार दिखाते हैं, खासकर जब कम्प्यूटेशनल भार समान होते हैं। मिनीमैक्स ने MoE मॉडल को स्केल करते समय रूटिंग पतन को रोकने के लिए एक ऑलगेदर संचार चरण भी पेश किया।
  • कम्प्यूटेशनल ऑप्टिमाइजेशन: मिनीमैक्स ने संचार भार को कम करने के लिए टोकन-समूहण आधारित ओवरलैप योजना का उपयोग करके MoE आर्किटेक्चर के लिए अनुकूलित किया। लंबी-संदर्भ प्रशिक्षण के लिए, उन्होंने एक डेटा-पैकिंग तकनीक का उपयोग किया जहां प्रशिक्षण नमूनों को अनुक्रम आयाम के साथ अंत-से-अंत तक जोड़ा जाता है। उन्होंने लाइटनिंग अटेंशन के लिए चार अनुकूलन रणनीतियों को भी अपनाया: बैचड कर्नेल फ्यूजन, अलग प्रीफिल और डिकोड निष्पादन, बहु-स्तरीय पैडिंग और स्ट्राइडेड बैचड मैट्रिक्स गुणन विस्तार।

इन नवाचारों ने 32 विशेषज्ञों के साथ 456 बिलियन पैरामीटर LLM के निर्माण का नेतृत्व किया है, जहां प्रत्येक टोकन 45.9 बिलियन पैरामीटर को सक्रिय करता है।

MiniMax-Text-01 का बेंचमार्क प्रदर्शन

MiniMax-Text-01 ने कई बेंचमार्क पर उत्कृष्ट प्रदर्शन दिखाया है, जो GPT-4o और Claude 3.5 Sonnet जैसे क्लोज्ड-सोर्स मॉडल के साथ प्रतिस्पर्धा कर रहा है और यहां तक कि Qwen2.5 और Llama 3.1 जैसे ओपन-सोर्स मॉडल को भी पीछे छोड़ रहा है।

  • HumanEval पर, MiniMax-Text-01 Instruct Qwen2.5-72B से बेहतर प्रदर्शन करता है।
  • इसने चुनौतीपूर्ण GPQA डायमंड डेटासेट पर 54.4 का स्कोर हासिल किया, जो अधिकांश फाइन-ट्यून LLM और नवीनतम GPT-4o से आगे निकल गया।
  • MiniMax-Text-01 ने MMLU, IFEval और Arena-Hard में भी शीर्ष-तीन स्कोर हासिल किए, जो ज्ञान को लागू करने और उपयोगकर्ता प्रश्नों को प्रभावी ढंग से पूरा करने की अपनी क्षमता का प्रदर्शन करते हैं।

बेहतर प्रासंगिक क्षमताएं

MiniMax-Text-01 की विस्तारित संदर्भ विंडो एक प्रमुख विभेदक है:

  • रूलर बेंचमार्क में, MiniMax-Text-01 64k संदर्भ लंबाई तक अन्य मॉडलों की तुलना में तुलनीय प्रदर्शन करता है, लेकिन 128k से आगे इसका प्रदर्शन काफी बढ़ जाता है।
  • मॉडल LongBench v2 के लंबे-संदर्भ तर्क कार्यों में भी असाधारण प्रदर्शन प्रदर्शित करता है।
  • इसके अतिरिक्त, MiniMax-Text-01 की लंबी-संदर्भ सीखने की क्षमताएं अत्याधुनिक हैं, जैसा कि MTOB बेंचमार्क द्वारा सत्यापित किया गया है।

वास्तविक दुनिया अनुप्रयोग

MiniMax-Text-01 की क्षमताएं बेंचमार्क से परे हैं।

  • यह सूक्ष्म भाषा और भावनात्मक गहराई के साथ एक गीत जैसी रचनात्मक सामग्री उत्पन्न कर सकता है।
  • यह कलामांग जैसी कम सामान्य भाषा का अनुवाद करने जैसे जटिल कार्य कर सकता है, प्रदान किए गए निर्देशों, व्याकरण और शब्दावली का उपयोग करके।
  • यह लंबी बातचीत में उत्कृष्ट स्मृति प्रदर्शित करता है।

MiniMax-VL-01: एक दृश्य-भाषा मॉडल

MiniMax-Text-01 के आधार पर, मिनीमैक्स ने एक बहुविध संस्करण विकसित किया, MiniMax-VL-01, जो एक छवि एनकोडर और एडेप्टर को एकीकृत करता है। मॉडल छवि अनुकूलन के लिए दो-परत एमएलपी प्रोजेक्टर के साथ दृश्य एन्कोडिंग के लिए एक वीआईटी का उपयोग करता है। इस मॉडल ने एक मालिकाना डेटासेट और एक बहु-चरणीय प्रशिक्षण रणनीति का उपयोग करके छवि-भाषा डेटा के साथ निरंतर प्रशिक्षण लिया।

MiniMax-VL-01 विभिन्न बेंचमार्क पर मजबूत प्रदर्शन प्रदर्शित करता है, अक्सर अन्य SOTA मॉडलों से मेल खाता है या उससे अधिक होता है। इसने जटिल दृश्य डेटा, जैसे नेविगेशन मानचित्रों का विश्लेषण करने में सक्षम साबित हुआ है।

एआई एजेंटों का भविष्य

मिनीमैक्स संदर्भ विंडो क्षमताओं की सीमाओं को आगे बढ़ा रहा है, सॉफ्टमैक्स ध्यान को खत्म करने और अनंत संदर्भ विंडो को सक्षम करने वाले आर्किटेक्चर में चल रहे अनुसंधान के साथ। कंपनी AI एजेंटों के लिए बहुविध मॉडलों के महत्व को पहचानती है, क्योंकि कई वास्तविक दुनिया के कार्यों के लिए दृश्य और पाठ्य समझ की आवश्यकता होती है। मिनीमैक्स का लक्ष्य ऐसे AI एजेंट बनाना है जो प्राकृतिक, सुलभ और सर्वव्यापी हों, जिनमें भौतिक दुनिया के साथ बातचीत करने की क्षमता हो।