- Published on
మినిమాక్స్ ఓపెన్ సోర్స్ మోడల్ 456B పారామీటర్లు 4M సందర్భం ఆవిష్కరించింది
మినిమాక్స్ ఓపెన్ సోర్స్ మోడల్స్ ఆవిష్కరణలు
మినిమాక్స్-టెక్స్ట్-01 అనేక ఆవిష్కరణల ఫలితం, అవి:
- లైట్నింగ్ అటెన్షన్: ఇది ట్రాన్స్ఫార్మర్ ఆర్కిటెక్చర్ యొక్క గణన సంక్లిష్టతను క్వాడ్రాటిక్ నుండి లీనియర్కు తగ్గించే ఒక రకమైన లీనియర్ అటెన్షన్. ఇది రైట్ ప్రొడక్ట్ కెర్నల్ ట్రిక్ ద్వారా సాధించబడుతుంది, ఇది శ్రద్ధ యొక్క మరింత సమర్థవంతమైన గణనకు అనుమతిస్తుంది.
- హైబ్రిడ్-లైట్నింగ్: లైట్నింగ్ అటెన్షన్ మరియు సాఫ్ట్మాక్స్ అటెన్షన్ కలయిక, ఇక్కడ ప్రతి ఎనిమిది లేయర్లలో లైట్నింగ్ అటెన్షన్ను సాఫ్ట్మాక్స్ అటెన్షన్తో భర్తీ చేస్తారు. ఈ విధానం సామర్థ్యాన్ని కొనసాగిస్తూనే స్కేలింగ్ సామర్థ్యాలను మెరుగుపరుస్తుంది.
- మిక్స్చర్ ఆఫ్ ఎక్స్పర్ట్స్ (MoE): దట్టమైన మోడల్లతో పోలిస్తే, MoE మోడల్లు ముఖ్యంగా గణన లోడ్లు ఒకే విధంగా ఉన్నప్పుడు గణనీయమైన పనితీరు మెరుగుదలలను చూపుతాయి. మినిమాక్స్ MoE మోడల్లను స్కేల్ చేసేటప్పుడు రూటింగ్ పతనాన్ని నిరోధించడానికి ఆల్గెదర్ కమ్యూనికేషన్ స్టెప్ను కూడా పరిచయం చేసింది.
- గణన ఆప్టిమైజేషన్: మినిమాక్స్ కమ్యూనికేషన్ లోడ్లను తగ్గించడానికి టోకెన్-గ్రూపింగ్ ఆధారిత ఓవర్లాప్ స్కీమ్ను ఉపయోగించి MoE ఆర్కిటెక్చర్ కోసం ఆప్టిమైజ్ చేయబడింది. సుదీర్ఘ-సందర్భ శిక్షణ కోసం, వారు శిక్షణ నమూనాలను సీక్వెన్స్ డైమెన్షన్ వెంబడి ఎండ్-టు-ఎండ్కు కనెక్ట్ చేసే డేటా-ప్యాకింగ్ టెక్నిక్ను ఉపయోగించారు. వారు లైట్నింగ్ అటెన్షన్ కోసం నాలుగు ఆప్టిమైజేషన్ వ్యూహాలను కూడా స్వీకరించారు: బ్యాచ్డ్ కెర్నల్ ఫ్యూజన్, సెపరేట్ ప్రీఫిల్ మరియు డీకోడ్ ఎగ్జిక్యూషన్, మల్టీ-లెవల్ ప్యాడింగ్ మరియు స్ట్రైడెడ్ బ్యాచ్డ్ మ్యాట్రిక్స్ మల్టిప్లికేషన్ ఎక్స్పాన్షన్.
ఈ ఆవిష్కరణలు 32 నిపుణులతో 456 బిలియన్ పారామీటర్ LLMని సృష్టించడానికి దారితీశాయి, ఇక్కడ ప్రతి టోకెన్ 45.9 బిలియన్ పారామీటర్లను సక్రియం చేస్తుంది.
మినిమాక్స్-టెక్స్ట్-01 యొక్క బెంచ్మార్క్ పనితీరు
మినిమాక్స్-టెక్స్ట్-01 అనేక బెంచ్మార్క్లలో అద్భుతమైన పనితీరును కనబరిచింది, GPT-4o మరియు Claude 3.5 సోనెట్ వంటి క్లోజ్డ్-సోర్స్ మోడల్లను, అలాగే Qwen2.5 మరియు Llama 3.1 వంటి ఓపెన్-సోర్స్ మోడల్లను కూడా అధిగమించింది.
- హ్యూమన్ ఎవాల్లో, మినిమాక్స్-టెక్స్ట్-01 ఇన్స్ట్రక్ట్ క్వెన్2.5-72Bని అధిగమించింది.
- ఇది సవాలుతో కూడిన GPQA డైమండ్ డేటాసెట్లో 54.4 స్కోర్ను సాధించింది, చాలా ఫైన్-ట్యూన్డ్ LLMలను మరియు తాజా GPT-4oని అధిగమించింది.
- మినిమాక్స్-టెక్స్ట్-01 MMLU, IFEval మరియు Arena-Hardలో కూడా టాప్-త్రీ స్కోర్లను సాధించింది, ఇది జ్ఞానాన్ని వర్తింపజేయగల మరియు వినియోగదారు ప్రశ్నలను సమర్థవంతంగా తీర్చగల సామర్థ్యాన్ని ప్రదర్శిస్తుంది.
ఉన్నతమైన సందర్భోచిత సామర్థ్యాలు
మినిమాక్స్-టెక్స్ట్-01 యొక్క విస్తరించిన సందర్భ విండో ఒక ముఖ్యమైన విభిన్నత:
- రూలర్ బెంచ్మార్క్లో, మినిమాక్స్-టెక్స్ట్-01 64k సందర్భ పొడవు వరకు ఇతర మోడల్లతో పోల్చదగిన పనితీరును కనబరుస్తుంది, అయితే దీని పనితీరు 128k దాటి గణనీయంగా పెరుగుతుంది.
- ఈ మోడల్ లాంగ్బెంచ్ v2 యొక్క సుదీర్ఘ-సందర్భ రీజనింగ్ టాస్క్లలో అసాధారణమైన పనితీరును కూడా ప్రదర్శిస్తుంది.
- అదనంగా, మినిమాక్స్-టెక్స్ట్-01 యొక్క సుదీర్ఘ-సందర్భ అభ్యాస సామర్థ్యాలు MTOB బెంచ్మార్క్ ద్వారా ధృవీకరించబడినట్లుగా అత్యాధునికమైనవి.
వాస్తవ-ప్రపంచ అనువర్తనాలు
మినిమాక్స్-టెక్స్ట్-01 సామర్థ్యాలు బెంచ్మార్క్లకు మించి విస్తరించి ఉన్నాయి.
- ఇది సూక్ష్మమైన భాష మరియు భావోద్వేగ లోతుతో పాట వంటి సృజనాత్మక కంటెంట్ను రూపొందించగలదు.
- ఇది కలమంగ్ వంటి తక్కువ సాధారణ భాషను అనువదించడం వంటి సంక్లిష్ట పనులను అందించిన సూచనలు, వ్యాకరణం మరియు పదజాలం ఉపయోగించి చేయగలదు.
- ఇది సుదీర్ఘ సంభాషణలలో అద్భుతమైన మెమరీని ప్రదర్శిస్తుంది.
మినిమాక్స్-విఎల్-01: విజువల్-లాంగ్వేజ్ మోడల్
మినిమాక్స్-టెక్స్ట్-01 ఆధారంగా, మినిమాక్స్ మల్టీమోడల్ వెర్షన్, మినిమాక్స్-విఎల్-01ను అభివృద్ధి చేసింది, ఇది ఇమేజ్ ఎన్కోడర్ మరియు అడాప్టర్ను విలీనం చేస్తుంది. ఈ మోడల్ ఇమేజ్ అడాప్టేషన్ కోసం రెండు-లేయర్ MLP ప్రొజెక్టర్తో విజువల్ ఎన్కోడింగ్ కోసం ViTని ఉపయోగిస్తుంది. ఈ మోడల్ యాజమాన్య డేటాసెట్ మరియు బహుళ-దశల శిక్షణ వ్యూహాన్ని ఉపయోగించి ఇమేజ్-లాంగ్వేజ్ డేటాతో నిరంతర శిక్షణ పొందింది.
మినిమాక్స్-విఎల్-01 అనేక బెంచ్మార్క్లలో బలమైన పనితీరును కనబరుస్తుంది, తరచుగా ఇతర SOTA మోడల్లను సరిపోల్చడం లేదా అధిగమించడం జరుగుతుంది. ఇది నావిగేషన్ మ్యాప్ల వంటి సంక్లిష్ట విజువల్ డేటాను విశ్లేషించగలదని నిరూపించబడింది.
AI ఏజెంట్ల భవిష్యత్తు
మినిమాక్స్ సందర్భ విండో సామర్థ్యాల సరిహద్దులను పెంచుతోంది, సాఫ్ట్మాక్స్ అటెన్షన్ను తొలగించి అంతులేని సందర్భ విండోలను ప్రారంభించే ఆర్కిటెక్చర్లపై కొనసాగుతున్న పరిశోధనలతో. అనేక వాస్తవ-ప్రపంచ పనులకు విజువల్ మరియు టెక్స్ట్ అవగాహన అవసరమైనందున, AI ఏజెంట్ల కోసం మల్టీమోడల్ మోడల్ల యొక్క ప్రాముఖ్యతను కంపెనీ గుర్తిస్తుంది. మినిమాక్స్ భౌతిక ప్రపంచంతో సంభాషించే సామర్థ్యంతో సహజమైన, అందుబాటులో ఉండే మరియు సర్వత్రా ఉండే AI ఏజెంట్లను సృష్టించాలని లక్ష్యంగా పెట్టుకుంది.