- Published on
MiniMax Dedah Model Sumber Terbuka 456B Parameter 4M Konteks
MiniMax Menerima Era Ejen
Komuniti AI sedang hangat dengan ramalan bahawa 2025 akan menjadi tahun Ejen AI. Pemimpin industri seperti Sam Altman dari OpenAI, Mark Zuckerberg dari Meta, dan Jensen Huang dari Nvidia semuanya mencadangkan bahawa Ejen AI akan memberi impak yang signifikan kepada tenaga kerja dan landskap IT. MiniMax telah memberi respons kepada trend yang muncul ini dengan membuka sumber model bahasa asas terbarunya, MiniMax-Text-01, dan model visual-multimodal, MiniMax-VL-01.
Inovasi Utama dalam Model MiniMax
Inovasi utama model baharu ini ialah pelaksanaan mekanisme perhatian linear novel, yang memperluas tetingkap konteks dengan ketara. Model MiniMax boleh memproses 4 juta token sekali gus, iaitu 20 hingga 32 kali lebih banyak daripada model lain. Kemajuan ini penting untuk aplikasi Ejen, yang memerlukan tetingkap konteks yang panjang untuk mengurus memori dan kerjasama antara berbilang ejen.
Inovasi yang Mendorong Model Sumber Terbuka MiniMax
MiniMax-Text-01 adalah hasil daripada beberapa inovasi, termasuk:
Perhatian Kilat (Lightning Attention): Satu bentuk perhatian linear yang mengurangkan kerumitan pengiraan seni bina Transformer daripada kuadratik kepada linear. Ini dicapai melalui trik kernel produk kanan, yang membolehkan pengiraan perhatian yang lebih cekap.
Hibrid-kilat (Hybrid-lightning): Gabungan Perhatian Kilat dan perhatian softmax, di mana Perhatian Kilat digantikan dengan perhatian softmax setiap lapan lapisan. Pendekatan ini meningkatkan keupayaan penskalaan sambil mengekalkan kecekapan.
Campuran Pakar (Mixture of Experts - MoE): Berbanding dengan model padat, model MoE menunjukkan peningkatan prestasi yang ketara, terutamanya apabila beban pengiraan adalah serupa. MiniMax juga memperkenalkan langkah komunikasi allgather untuk mengelakkan keruntuhan penghalaan apabila menskalakan model MoE.
Pengoptimuman Pengiraan: MiniMax dioptimumkan untuk seni bina MoE dengan menggunakan skim tindihan berasaskan pengumpulan token untuk mengurangkan beban komunikasi. Untuk latihan konteks panjang, mereka menggunakan teknik pemadatan data di mana sampel latihan disambungkan dari hujung ke hujung sepanjang dimensi urutan. Mereka juga menggunakan empat strategi pengoptimuman untuk Perhatian Kilat: gabungan kernel berkelompok, pelaksanaan praisi dan penyahkodan berasingan, pelapisan berbilang peringkat, dan pengembangan pendaraban matriks berkelompok berjalur.
Inovasi ini telah membawa kepada penciptaan LLM 456 bilion parameter dengan 32 pakar, di mana setiap token mengaktifkan 45.9 bilion parameter.
Prestasi Penanda Aras MiniMax-Text-01
MiniMax-Text-01 telah menunjukkan prestasi yang cemerlang pada beberapa penanda aras, menyaingi dan malah mengatasi model sumber tertutup seperti GPT-4o dan Claude 3.5 Sonnet, serta model sumber terbuka seperti Qwen2.5 dan Llama 3.1.
- Di HumanEval, MiniMax-Text-01 mengatasi Instruct Qwen2.5-72B.
- Ia mencapai skor 54.4 pada dataset GPQA Diamond yang mencabar, mengatasi kebanyakan LLM yang ditala halus dan GPT-4o terkini.
- MiniMax-Text-01 juga mencapai tiga skor teratas dalam MMLU, IFEval, dan Arena-Hard, menunjukkan keupayaannya untuk menggunakan pengetahuan dan memenuhi pertanyaan pengguna dengan berkesan.
Keupayaan Kontekstual Unggul
Tetingkap konteks lanjutan MiniMax-Text-01 adalah pembeza utama:
- Dalam penanda aras Ruler, MiniMax-Text-01 berprestasi setanding dengan model lain sehingga panjang konteks 64k, tetapi prestasinya meningkat dengan ketara melebihi 128k.
- Model ini juga menunjukkan prestasi yang luar biasa dalam tugas penaakulan konteks panjang LongBench v2.
- Selain itu, kebolehan pembelajaran konteks panjang MiniMax-Text-01 adalah yang terkini, seperti yang disahkan oleh penanda aras MTOB.
Aplikasi Dunia Nyata
Keupayaan MiniMax-Text-01 melangkaui penanda aras.
- Ia boleh menjana kandungan kreatif, seperti lagu, dengan bahasa yang bernuansa dan kedalaman emosi.
- Ia boleh melaksanakan tugas yang kompleks seperti menterjemah bahasa yang kurang biasa seperti Kalamang, menggunakan arahan, tatabahasa dan perbendaharaan kata yang disediakan.
- Ia mempamerkan ingatan yang sangat baik dalam perbualan yang panjang.
MiniMax-VL-01: Model Visual-Bahasa
Berdasarkan MiniMax-Text-01, MiniMax membangunkan versi multimodal, MiniMax-VL-01, yang mengintegrasikan pengekod dan penyesuai imej. Model ini menggunakan ViT untuk pengekodan visual dengan projektor MLP dua lapisan untuk penyesuaian imej. Model ini menjalani latihan berterusan dengan data imej-bahasa menggunakan dataset proprietari dan strategi latihan berbilang peringkat.
MiniMax-VL-01 menunjukkan prestasi yang kukuh pada pelbagai penanda aras, seringkali menyamai atau melebihi model SOTA yang lain. Ia telah terbukti mampu menganalisis data visual yang kompleks, seperti peta navigasi.
Masa Depan Ejen AI
MiniMax sedang menolak sempadan keupayaan tetingkap konteks, dengan penyelidikan berterusan ke dalam seni bina yang mungkin menghapuskan perhatian softmax dan membolehkan tetingkap konteks tak terhingga. Syarikat itu mengiktiraf kepentingan model multimodal untuk ejen AI, kerana banyak tugas dunia nyata memerlukan pemahaman visual dan tekstual. MiniMax bertujuan untuk mencipta ejen AI yang semula jadi, mudah diakses dan di mana-mana, dengan potensi untuk berinteraksi dengan dunia fizikal.