- Published on
MiniMax Yafichua Model ya Chanzo Huria ya 456B na Context ya 4M
MiniMax Yakumbatia Enzi ya Agent
Jumuiya ya AI inafurika kwa utabiri kwamba 2025 itakuwa mwaka wa AI Agent. Viongozi wa tasnia kama Sam Altman wa OpenAI, Mark Zuckerberg wa Meta, na Jensen Huang wa Nvidia wote wamependekeza kwamba AI Agents zitaathiri sana nguvukazi na mazingira ya IT. MiniMax imejibu mwelekeo huu unaoibuka kwa kufungua chanzo cha lugha yake ya msingi ya hivi karibuni, MiniMax-Text-01, na model ya kuona-multimodal, MiniMax-VL-01.
Ubunifu Muhimu wa Modeli Mpya
Ubunifu muhimu wa model hizi mpya ni utekelezaji wa utaratibu mpya wa usikivu wa mstari, ambao huongeza sana dirisha la muktadha. Modeli za MiniMax zinaweza kusindika tokeni milioni 4 kwa wakati mmoja, ambayo ni mara 20 hadi 32 zaidi ya model zingine. Maendeleo haya ni muhimu kwa matumizi ya Agent, ambayo yanahitaji madirisha marefu ya muktadha ili kudhibiti kumbukumbu na ushirikiano kati ya agents nyingi.
Ubunifu Unaoendesha Modeli za Chanzo Huria za MiniMax
MiniMax-Text-01 ni matokeo ya ubunifu kadhaa, ikiwa ni pamoja na:
- Lightning Attention: Aina ya usikivu wa mstari ambayo hupunguza utata wa hesabu wa usanifu wa Transformer kutoka quadratic hadi linear. Hii inafanikiwa kupitia hila ya kernel ya bidhaa sahihi, ambayo inaruhusu hesabu bora zaidi ya usikivu.
- Hybrid-lightning: Mchanganyiko wa Lightning Attention na softmax attention, ambapo Lightning Attention hubadilishwa na softmax attention kila safu nane. Njia hii inaboresha uwezo wa kuongeza huku ikidumisha ufanisi.
- Mixture of Experts (MoE): Ikilinganishwa na model dense, model za MoE zinaonyesha maboresho makubwa ya utendaji, hasa wakati mizigo ya hesabu inafanana. MiniMax pia ilianzisha hatua ya mawasiliano ya allgather ili kuzuia kuporomoka kwa uelekezaji wakati wa kupanua model za MoE.
- Computational Optimization: MiniMax iliboresha usanifu wa MoE kwa kutumia mpango wa kuingiliana kulingana na token-grouping ili kupunguza mizigo ya mawasiliano. Kwa mafunzo ya muktadha mrefu, walitumia mbinu ya data-packing ambapo sampuli za mafunzo huunganishwa mwisho hadi mwisho kando ya mwelekeo wa mlolongo. Pia walipitisha mikakati minne ya uboreshaji kwa Lightning Attention: batched kernel fusion, separate prefill na decode execution, multi-level padding, na strided batched matrix multiplication expansion.
Ubunifu huu umesababisha kuundwa kwa LLM ya vigezo bilioni 456 na wataalamu 32, ambapo kila tokeni huamilisha vigezo bilioni 45.9.
Utendaji wa Benchmark wa MiniMax-Text-01
MiniMax-Text-01 imeonyesha utendaji bora katika vigezo kadhaa, ikishindana na hata kuzidi model zilizofungwa chanzo kama GPT-4o na Claude 3.5 Sonnet, pamoja na model za chanzo huria kama Qwen2.5 na Llama 3.1.
- Kwenye HumanEval, MiniMax-Text-01 inazidi Instruct Qwen2.5-72B.
- Ilifikia alama ya 54.4 kwenye dataset ngumu ya GPQA Diamond, ikizidi LLM nyingi zilizoboreshwa na GPT-4o ya hivi karibuni.
- MiniMax-Text-01 pia ilipata alama tatu za juu katika MMLU, IFEval, na Arena-Hard, ikionyesha uwezo wake wa kutumia maarifa na kukidhi maswali ya watumiaji kwa ufanisi.
Uwezo Bora wa Kimuktadha
Dirisha lililopanuliwa la muktadha la MiniMax-Text-01 ni tofauti muhimu:
- Katika benchmark ya Ruler, MiniMax-Text-01 hufanya kwa kulinganishwa na model zingine hadi urefu wa muktadha wa 64k, lakini utendaji wake huongezeka kwa kiasi kikubwa zaidi ya 128k.
- Model pia inaonyesha utendaji wa kipekee katika majukumu ya kufikiri kwa muktadha mrefu ya LongBench v2.
- Zaidi ya hayo, uwezo wa kujifunza kwa muktadha mrefu wa MiniMax-Text-01 ni wa hali ya juu, kama inavyothibitishwa na benchmark ya MTOB.
Matumizi ya Ulimwengu Halisi
Uwezo wa MiniMax-Text-01 unaenea zaidi ya vigezo.
- Inaweza kutoa maudhui ya ubunifu, kama vile wimbo, kwa lugha ya hila na kina cha kihisia.
- Inaweza kufanya kazi ngumu kama vile kutafsiri lugha isiyo ya kawaida kama Kalamang, kwa kutumia maagizo yaliyotolewa, sarufi, na msamiati.
- Inaonyesha kumbukumbu bora katika mazungumzo marefu.
MiniMax-VL-01: Modeli ya Lugha ya Kuona
Kulingana na MiniMax-Text-01, MiniMax ilitengeneza toleo la multimodal, MiniMax-VL-01, ambalo huunganisha encoder ya picha na adapta. Model hutumia ViT kwa encoding ya kuona na projector ya MLP ya safu mbili kwa marekebisho ya picha. Model hii ilifanyiwa mafunzo endelevu na data ya lugha ya picha kwa kutumia dataset ya umiliki na mkakati wa mafunzo wa hatua nyingi.
MiniMax-VL-01 inaonyesha utendaji thabiti katika vigezo mbalimbali, mara nyingi inalingana au kuzidi model zingine za SOTA. Imethibitisha kuwa na uwezo wa kuchambua data ngumu ya kuona, kama vile ramani za urambazaji.
Mustakabali wa AI Agents
MiniMax inasukuma mipaka ya uwezo wa dirisha la muktadha, na utafiti unaoendelea katika usanifu ambao unaweza kuondoa softmax attention na kuwezesha madirisha ya muktadha usio na mwisho. Kampuni inatambua umuhimu wa model za multimodal kwa AI agents, kwani kazi nyingi za ulimwengu halisi zinahitaji uelewa wa kuona na maandishi. MiniMax inalenga kuunda AI agents ambazo ni za asili, zinazopatikana, na za kila mahali, zenye uwezo wa kuingiliana na ulimwengu wa kimwili.