- Published on
MiniMax 開源 4560 億參數模型 擁抱 AI 代理時代
MiniMax 擁抱 AI 代理時代
人工智慧社群預測 2025 年將是 AI 代理的元年。業界領袖如 OpenAI 的 Sam Altman、Meta 的 Mark Zuckerberg 和 Nvidia 的 Jensen Huang 都指出,AI 代理將對勞動力和 IT 領域產生重大影響。MiniMax 響應這一趨勢,開源了最新的基礎語言模型 MiniMax-Text-01 和視覺多模態模型 MiniMax-VL-01。
創新驅動 MiniMax 的開源模型
這些新模型的關鍵創新是實現了一種新型的線性注意力機制,顯著擴展了上下文窗口。MiniMax 的模型一次可以處理 400 萬個 tokens,比其他模型多 20 到 32 倍。這項進展對於需要長上下文窗口來管理記憶體和多個代理之間協作的代理應用至關重要。
MiniMax-Text-01 的創新之處包括:
- Lightning Attention: 一種線性注意力形式,將 Transformer 架構的計算複雜度從二次方降低到線性。這是通過右乘積核技巧實現的,可以更有效地計算注意力。
- Hybrid-lightning: Lightning Attention 和 softmax 注意力的結合,每八層將 Lightning Attention 替換為 softmax 注意力。這種方法在保持效率的同時提高了擴展能力。
- Mixture of Experts (MoE): 與密集模型相比,MoE 模型在計算負載相似時表現出顯著的性能提升。MiniMax 還引入了 allgather 通信步驟,以防止在縮放 MoE 模型時發生路由崩潰。
- 計算優化: MiniMax 通過使用基於 token 分組的重疊方案來減少通信負載,從而優化了 MoE 架構。對於長上下文訓練,他們使用了一種數據打包技術,其中訓練樣本沿序列維度端到端連接。他們還為 Lightning Attention 採用了四種優化策略:批量核融合、單獨的預填充和解碼執行、多級填充以及跨步批量矩陣乘法擴展。
這些創新創造了一個擁有 4560 億參數和 32 個專家的 LLM,其中每個 token 激活 459 億個參數。
MiniMax-Text-01 的基準測試表現
MiniMax-Text-01 在多個基準測試中表現出色,與 GPT-4o 和 Claude 3.5 Sonnet 等閉源模型以及 Qwen2.5 和 Llama 3.1 等開源模型相媲美,甚至超越了它們。
- 在 HumanEval 上,MiniMax-Text-01 的表現優於 Instruct Qwen2.5-72B。
- 在具有挑戰性的 GPQA Diamond 數據集上,它取得了 54.4 分的成績,超過了大多數微調的 LLM 和最新的 GPT-4o。
- MiniMax-Text-01 還在 MMLU、IFEval 和 Arena-Hard 中取得了前三名的成績,證明了其應用知識和有效滿足用戶查詢的能力。
卓越的上下文能力
MiniMax-Text-01 的擴展上下文窗口是一個關鍵的差異化因素:
- 在 Ruler 基準測試中,MiniMax-Text-01 在 64k 上下文長度下表現與其他模型相當,但其性能在超過 128k 後顯著提高。
- 該模型在 LongBench v2 的長上下文推理任務中也表現出卓越的性能。
- 此外,MTOB 基準測試驗證了 MiniMax-Text-01 的長上下文學習能力是目前最先進的。
真實世界的應用
MiniMax-Text-01 的能力不僅限於基準測試。
- 它可以生成具有細微語言和情感深度的創意內容,例如歌曲。
- 它可以執行複雜的任務,例如翻譯不太常見的語言 Kalamang,使用提供的說明、語法和詞彙。
- 它在長時間的對話中表現出出色的記憶力。
MiniMax-VL-01:視覺語言模型
基於 MiniMax-Text-01,MiniMax 開發了一個多模態版本 MiniMax-VL-01,它集成了圖像編碼器和適配器。該模型使用 ViT 進行視覺編碼,並使用雙層 MLP 投影儀進行圖像適配。該模型使用專有數據集和多階段訓練策略,通過圖像語言數據進行了持續訓練。
MiniMax-VL-01 在各種基準測試中表現出強勁的性能,通常與其他 SOTA 模型相匹配或超過它們。它已被證明能夠分析複雜的視覺數據,例如導航地圖。
AI 代理的未來
MiniMax 正在推動上下文窗口能力的界限,並持續研究可能消除 softmax 注意力並實現無限上下文窗口的架構。該公司認識到多模態模型對於 AI 代理的重要性,因為許多真實世界的任務需要視覺和文本理解。MiniMax 的目標是創造自然、易用且普及的 AI 代理,這些代理具有與現實世界互動的潛力。