Published on

国产多模态模型追平OPENAI-O1,训练细节公开

作者
  • avatar
    姓名
    Ajax
    Twitter

国产多模态模型崛起:Kimi k1.5 对标 OpenAI o1

在人工智能领域,一场新的竞赛正在展开,而这次的焦点是一款能够与OpenAI的满血版o1(Full Version)相媲美的国产多模态模型。月之暗面近日发布的Kimi k系列模型的最新版本——k1.5多模态思考模型,不仅在数学、代码和多模态推理能力上全面对标OpenAI的顶级模型,更是成为了OpenAI之外首个达到此高度的多模态模型。尤其值得一提的是,kimi-k1.5-short模型在短链思维(short cot)模型领域达到了SOTA(state-of-the-art)水平,并以高达550%的提升幅度大幅领先GPT-4o和Claude 3.5 Sonnet。

这一成就标志着中国在人工智能领域取得了重大突破,月之暗面也成为国内首家在数学和代码能力上达到满血版o1水平的AI公司。此前的模型在各项基准测试中仅能达到o1-preview的水平,而Kimi k1.5的出现,无疑给业界带来了新的惊喜。

那么,Kimi k1.5是如何做到这一点的呢?月之暗面同步发布的技术报告揭示了他们在模型训练技术上的探索之路。这份报告不仅详细介绍了他们的技术范式,还公开了其背后所采用的强化学习技术。这种技术透明度在当前竞争激烈的LLM市场中实属罕见。月之暗面表示,他们希望通过公开技术细节,吸引更多技术人才加入,共同推动AGI(通用人工智能)的发展。

Kimi k1.5 的卓越性能

Kimi k1.5多模态推理模型在多项测试中均展现出SOTA级别的推理能力和通用能力。具体而言:

  • 长链思维(long-CoT)模式:在数学、代码和多模态推理方面,Kimi k1.5达到了OpenAI o1正式版的水平。在AIME测试中,Kimi k1.5得分77.5分,在MATH 500测试中得分96.2分,在Codeforces测试中达到94百分位,在MathVista测试中得分74.9分。这些成绩表明,Kimi k1.5是OpenAI之外,全球首个实现o1满血版性能的模型。
  • 短链思维(short-CoT)模式:Kimi k1.5在数学、代码、视觉多模态和通用能力上也达到了全球短思考SOTA模型水平,并大幅领先GPT-4o和Claude 3.5 Sonnet。例如,Kimi k1.5在AIME测试中得分60.8分,MATH500测试中得分94.6分,LiveCodeBench测试中得分47.3分。

此外,Kimi k1.5在全球前沿大模型数学竞赛和编程竞赛基准测试中也表现出色,处于全球第一梯队,而这两项测试被视为人类智商的巅峰体现。这些数据都充分证明了Kimi k1.5在推理能力上的显著提升,能够帮助用户解决更复杂的代码、数学和生活问题。

Kimi k1.5 的训练秘诀

随着模型尺寸的增大,预训练阶段参数的scaling up带来的边际收益递减。为了深度提升模型推理能力和长程问题能力,基于强化学习的Post-Training成为了新的突破点。Kimi技术团队在Kimi k1.5的训练实践中,全面探索了RL训练技术、多模态数据配方和基础设施优化。

他们所探索的RL框架简单而有效,无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等复杂技术也能取得优异的性能。此外,他们还提出了有效的long2short技术,利用Long-CoT技术改进Short-CoT模型,从而在短链思维推理方面取得了最佳成果。

简单有效的RL框架

Kimi技术团队设计的RL框架基于两个关键要素:长上下文scaling和改进的策略优化。

  • 长上下文scaling:他们将强化学习的上下文窗口扩展到128k,并观察到随着上下文长度的增加,模型性能持续改善。他们采用partial rollout方法,通过重用大量以前的轨迹来采样新的轨迹,从而提高训练效率。
  • 改进的策略优化:他们推导出了一个具有long-CoT的强化学习公式,并采用在线镜像下降法的变体来实现稳健的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化,他们进一步改进了该算法。

通过结合这两个关键要素,Kimi技术团队建立了一个用于LLM学习的简化强化学习框架。该框架能够scale上下文长度,使学习到的CoT展现出规划、反思和纠正的特性。此外,他们的模型还在文本和视觉数据上进行了联合训练,具备对这两种模态进行联合推理的能力。

Long2short 技术

尽管long-CoT模型在性能上表现出色,但在测试时消耗的token数量更多。Kimi技术团队发现,将long-CoT模型的思维先验迁移到short-CoT模型中是可行的。他们提出了几种解决long2short问题的方法:

  • 模型融合:通过简单地平均long-CoT模型和short-CoT模型的权重来实现模型融合,从而在不进行训练的情况下获得一个新模型,并有效提升token效率。
  • 最短拒绝采样:对同一个问题采样多次,并选择最短的正确响应进行监督微调。
  • DPO:利用Long CoT模型生成多个响应样本,选择最短的正确解决方案作为正样本,较长的响应则被视为负样本,用于DPO训练。
  • Long2short RL:在标准的RL训练阶段之后,选择一个在性能和token效率之间达到最佳平衡的模型作为基础模型,并进行单独的long2short RL训练阶段,并应用长度惩罚机制。

这些技术使得Kimi k1.5模型在保持高性能的同时,也提高了token的使用效率。

2025:加速升级 k 系列强化学习模型

OpenAI在2024年推出的GPT-4o和o1模型分别代表了多模态理解和强化学习两条技术路线。国内AI公司也在这些领域展开了激烈竞争。Kimi模型在能力上最接近o1,这让外界对月之暗面在2025年的表现充满了期待。

月之暗面表示,2025年他们将继续加速升级k系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。我们期待新模型的早日上线,为人工智能领域带来更多创新和突破。