మినిమాక్స్ ఓపెన్ సోర్స్ మోడల్ 456B పారామీటర్లు 4M సందర్భం ఆవిష్కరించింది

మినిమాక్స్ ఓపెన్ సోర్స్ మోడల్స్ ఆవిష్కరణలు

మినిమాక్స్-టెక్స్ట్-01 అనేక ఆవిష్కరణల ఫలితం, అవి:

లైట్నింగ్ అటెన్షన్: ఇది ట్రాన్స్‌ఫార్మర్ ఆర్కిటెక్చర్ యొక్క గణన సంక్లిష్టతను క్వాడ్రాటిక్ నుండి లీనియర్‌కు తగ్గించే ఒక రకమైన లీనియర్ అటెన్షన్. ఇది రైట్ ప్రొడక్ట్ కెర్నల్ ట్రిక్ ద్వారా సాధించబడుతుంది, ఇది శ్రద్ధ యొక్క మరింత సమర్థవంతమైన గణనకు అనుమతిస్తుంది.
హైబ్రిడ్-లైట్నింగ్: లైట్నింగ్ అటెన్షన్ మరియు సాఫ్ట్‌మాక్స్ అటెన్షన్ కలయిక, ఇక్కడ ప్రతి ఎనిమిది లేయర్‌లలో లైట్నింగ్ అటెన్షన్‌ను సాఫ్ట్‌మాక్స్ అటెన్షన్‌తో భర్తీ చేస్తారు. ఈ విధానం సామర్థ్యాన్ని కొనసాగిస్తూనే స్కేలింగ్ సామర్థ్యాలను మెరుగుపరుస్తుంది.
మిక్స్‌చర్ ఆఫ్ ఎక్స్‌పర్ట్స్ (MoE): దట్టమైన మోడల్‌లతో పోలిస్తే, MoE మోడల్‌లు ముఖ్యంగా గణన లోడ్‌లు ఒకే విధంగా ఉన్నప్పుడు గణనీయమైన పనితీరు మెరుగుదలలను చూపుతాయి. మినిమాక్స్ MoE మోడల్‌లను స్కేల్ చేసేటప్పుడు రూటింగ్ పతనాన్ని నిరోధించడానికి ఆల్‌గెదర్ కమ్యూనికేషన్ స్టెప్‌ను కూడా పరిచయం చేసింది.
గణన ఆప్టిమైజేషన్: మినిమాక్స్ కమ్యూనికేషన్ లోడ్‌లను తగ్గించడానికి టోకెన్-గ్రూపింగ్ ఆధారిత ఓవర్‌లాప్ స్కీమ్‌ను ఉపయోగించి MoE ఆర్కిటెక్చర్ కోసం ఆప్టిమైజ్ చేయబడింది. సుదీర్ఘ-సందర్భ శిక్షణ కోసం, వారు శిక్షణ నమూనాలను సీక్వెన్స్ డైమెన్షన్ వెంబడి ఎండ్-టు-ఎండ్‌కు కనెక్ట్ చేసే డేటా-ప్యాకింగ్ టెక్నిక్‌ను ఉపయోగించారు. వారు లైట్నింగ్ అటెన్షన్ కోసం నాలుగు ఆప్టిమైజేషన్ వ్యూహాలను కూడా స్వీకరించారు: బ్యాచ్డ్ కెర్నల్ ఫ్యూజన్, సెపరేట్ ప్రీఫిల్ మరియు డీకోడ్ ఎగ్జిక్యూషన్, మల్టీ-లెవల్ ప్యాడింగ్ మరియు స్ట్రైడెడ్ బ్యాచ్డ్ మ్యాట్రిక్స్ మల్టిప్లికేషన్ ఎక్స్‌పాన్షన్.

ఈ ఆవిష్కరణలు 32 నిపుణులతో 456 బిలియన్ పారామీటర్ LLMని సృష్టించడానికి దారితీశాయి, ఇక్కడ ప్రతి టోకెన్ 45.9 బిలియన్ పారామీటర్‌లను సక్రియం చేస్తుంది.

మినిమాక్స్-టెక్స్ట్-01 యొక్క బెంచ్‌మార్క్ పనితీరు

మినిమాక్స్-టెక్స్ట్-01 అనేక బెంచ్‌మార్క్‌లలో అద్భుతమైన పనితీరును కనబరిచింది, GPT-4o మరియు Claude 3.5 సోనెట్ వంటి క్లోజ్డ్-సోర్స్ మోడల్‌లను, అలాగే Qwen2.5 మరియు Llama 3.1 వంటి ఓపెన్-సోర్స్ మోడల్‌లను కూడా అధిగమించింది.

హ్యూమన్ ఎవాల్‌లో, మినిమాక్స్-టెక్స్ట్-01 ఇన్స్ట్రక్ట్ క్వెన్2.5-72Bని అధిగమించింది.
ఇది సవాలుతో కూడిన GPQA డైమండ్ డేటాసెట్‌లో 54.4 స్కోర్‌ను సాధించింది, చాలా ఫైన్-ట్యూన్డ్ LLMలను మరియు తాజా GPT-4oని అధిగమించింది.
మినిమాక్స్-టెక్స్ట్-01 MMLU, IFEval మరియు Arena-Hardలో కూడా టాప్-త్రీ స్కోర్‌లను సాధించింది, ఇది జ్ఞానాన్ని వర్తింపజేయగల మరియు వినియోగదారు ప్రశ్నలను సమర్థవంతంగా తీర్చగల సామర్థ్యాన్ని ప్రదర్శిస్తుంది.

ఉన్నతమైన సందర్భోచిత సామర్థ్యాలు

మినిమాక్స్-టెక్స్ట్-01 యొక్క విస్తరించిన సందర్భ విండో ఒక ముఖ్యమైన విభిన్నత:

రూలర్ బెంచ్‌మార్క్‌లో, మినిమాక్స్-టెక్స్ట్-01 64k సందర్భ పొడవు వరకు ఇతర మోడల్‌లతో పోల్చదగిన పనితీరును కనబరుస్తుంది, అయితే దీని పనితీరు 128k దాటి గణనీయంగా పెరుగుతుంది.
ఈ మోడల్ లాంగ్‌బెంచ్ v2 యొక్క సుదీర్ఘ-సందర్భ రీజనింగ్ టాస్క్‌లలో అసాధారణమైన పనితీరును కూడా ప్రదర్శిస్తుంది.
అదనంగా, మినిమాక్స్-టెక్స్ట్-01 యొక్క సుదీర్ఘ-సందర్భ అభ్యాస సామర్థ్యాలు MTOB బెంచ్‌మార్క్ ద్వారా ధృవీకరించబడినట్లుగా అత్యాధునికమైనవి.

వాస్తవ-ప్రపంచ అనువర్తనాలు

మినిమాక్స్-టెక్స్ట్-01 సామర్థ్యాలు బెంచ్‌మార్క్‌లకు మించి విస్తరించి ఉన్నాయి.

ఇది సూక్ష్మమైన భాష మరియు భావోద్వేగ లోతుతో పాట వంటి సృజనాత్మక కంటెంట్‌ను రూపొందించగలదు.
ఇది కలమంగ్ వంటి తక్కువ సాధారణ భాషను అనువదించడం వంటి సంక్లిష్ట పనులను అందించిన సూచనలు, వ్యాకరణం మరియు పదజాలం ఉపయోగించి చేయగలదు.
ఇది సుదీర్ఘ సంభాషణలలో అద్భుతమైన మెమరీని ప్రదర్శిస్తుంది.

మినిమాక్స్-విఎల్-01: విజువల్-లాంగ్వేజ్ మోడల్

మినిమాక్స్-టెక్స్ట్-01 ఆధారంగా, మినిమాక్స్ మల్టీమోడల్ వెర్షన్, మినిమాక్స్-విఎల్-01ను అభివృద్ధి చేసింది, ఇది ఇమేజ్ ఎన్‌కోడర్ మరియు అడాప్టర్‌ను విలీనం చేస్తుంది. ఈ మోడల్ ఇమేజ్ అడాప్టేషన్ కోసం రెండు-లేయర్ MLP ప్రొజెక్టర్‌తో విజువల్ ఎన్‌కోడింగ్ కోసం ViTని ఉపయోగిస్తుంది. ఈ మోడల్ యాజమాన్య డేటాసెట్ మరియు బహుళ-దశల శిక్షణ వ్యూహాన్ని ఉపయోగించి ఇమేజ్-లాంగ్వేజ్ డేటాతో నిరంతర శిక్షణ పొందింది.

మినిమాక్స్-విఎల్-01 అనేక బెంచ్‌మార్క్‌లలో బలమైన పనితీరును కనబరుస్తుంది, తరచుగా ఇతర SOTA మోడల్‌లను సరిపోల్చడం లేదా అధిగమించడం జరుగుతుంది. ఇది నావిగేషన్ మ్యాప్‌ల వంటి సంక్లిష్ట విజువల్ డేటాను విశ్లేషించగలదని నిరూపించబడింది.

AI ఏజెంట్ల భవిష్యత్తు

మినిమాక్స్ సందర్భ విండో సామర్థ్యాల సరిహద్దులను పెంచుతోంది, సాఫ్ట్‌మాక్స్ అటెన్షన్‌ను తొలగించి అంతులేని సందర్భ విండోలను ప్రారంభించే ఆర్కిటెక్చర్‌లపై కొనసాగుతున్న పరిశోధనలతో. అనేక వాస్తవ-ప్రపంచ పనులకు విజువల్ మరియు టెక్స్ట్ అవగాహన అవసరమైనందున, AI ఏజెంట్ల కోసం మల్టీమోడల్ మోడల్‌ల యొక్క ప్రాముఖ్యతను కంపెనీ గుర్తిస్తుంది. మినిమాక్స్ భౌతిక ప్రపంచంతో సంభాషించే సామర్థ్యంతో సహజమైన, అందుబాటులో ఉండే మరియు సర్వత్రా ఉండే AI ఏజెంట్‌లను సృష్టించాలని లక్ష్యంగా పెట్టుకుంది.