Published on

MiniMax发布开源模型:4560亿参数,400万上下文

作者
  • avatar
    姓名
    Ajax
    Twitter

MiniMax拥抱AI Agent时代

人工智能社区预测2025年将是AI Agent的元年。OpenAI的Sam Altman、Meta的Mark Zuckerberg和Nvidia的Jensen Huang等行业领导者都认为,AI Agent将对劳动力市场和IT领域产生重大影响。MiniMax通过开源其最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01来响应这一新兴趋势。

MiniMax开源模型的创新驱动力

这些新模型的关键创新是采用了新型的线性注意力机制,显著扩展了上下文窗口。MiniMax的模型一次可以处理400万个token,比其他模型多20到32倍。这一进步对于Agent应用至关重要,因为Agent应用需要长上下文窗口来管理多个Agent之间的内存和协作。

MiniMax-Text-01是多项创新的成果,包括:

  • Lightning Attention: 一种线性注意力形式,将Transformer架构的计算复杂度从二次降低到线性。这是通过右积核技巧实现的,从而可以更有效地计算注意力。
  • Hybrid-lightning: Lightning Attention和softmax attention的组合,每八层将Lightning Attention替换为softmax attention。这种方法在保持效率的同时提高了扩展能力。
  • Mixture of Experts (MoE): 与密集模型相比,MoE模型在计算负载相似的情况下表现出显著的性能提升。MiniMax还引入了一个allgather通信步骤,以防止在扩展MoE模型时出现路由崩溃。
  • 计算优化: MiniMax通过使用基于token分组的重叠方案来减少通信负载,从而优化了MoE架构。对于长上下文训练,他们使用了一种数据打包技术,其中训练样本沿序列维度端到端连接。他们还为Lightning Attention采用了四种优化策略:批量内核融合、分离预填充和解码执行、多级填充以及跨步批量矩阵乘法扩展。

这些创新促成了一个拥有4560亿参数和32个专家的LLM的诞生,其中每个token激活459亿个参数。

MiniMax-Text-01的基准性能

MiniMax-Text-01在多个基准测试中表现出色,可以与GPT-4o和Claude 3.5 Sonnet等闭源模型以及Qwen2.5和Llama 3.1等开源模型相媲美甚至超越。

  • 在HumanEval上,MiniMax-Text-01的性能优于Instruct Qwen2.5-72B。
  • 它在具有挑战性的GPQA Diamond数据集上获得了54.4分,超过了大多数微调的LLM和最新的GPT-4o。
  • MiniMax-Text-01还在MMLU、IFEval和Arena-Hard中取得了前三名的成绩,展示了其应用知识和有效满足用户查询的能力。

卓越的上下文能力

MiniMax-Text-01的扩展上下文窗口是一个关键的差异化因素:

  • 在Ruler基准测试中,MiniMax-Text-01在64k上下文长度下的表现与其他模型相当,但其性能在128k以上显著提高。
  • 该模型还在LongBench v2的长上下文推理任务中表现出卓越的性能。
  • 此外,MTOB基准测试验证了MiniMax-Text-01的长上下文学习能力是目前最先进的。

现实世界的应用

MiniMax-Text-01的功能不仅仅局限于基准测试。

  • 它可以生成具有细致语言和情感深度的创意内容,例如一首歌。
  • 它可以执行复杂的任务,例如使用提供的说明、语法和词汇翻译像卡拉芒语这样的不太常见的语言。
  • 它在长时间的对话中表现出良好的记忆力。

MiniMax-VL-01:视觉语言模型

MiniMax基于MiniMax-Text-01开发了一个多模态版本MiniMax-VL-01,它集成了图像编码器和适配器。该模型使用ViT进行视觉编码,并使用两层MLP投影仪进行图像适配。该模型使用专有数据集和多阶段训练策略,对图像语言数据进行了连续训练。

MiniMax-VL-01在各种基准测试中表现出强大的性能,通常与或超过其他SOTA模型。它已被证明能够分析复杂的视觉数据,例如导航地图。

AI Agent的未来

MiniMax正在推动上下文窗口能力的边界,并正在进行可能消除softmax attention并实现无限上下文窗口的架构研究。该公司认识到多模态模型对于AI Agent的重要性,因为许多现实世界的任务都需要视觉和文本理解。MiniMax的目标是创建自然、可访问和无处不在的AI Agent,并使其具有与物理世界互动的潜力。