Published on

國產多模態模型追平 OpenAI O1:訓練細節公開

Authors
  • avatar
    Name
    Ajax
    Twitter

人工智慧新競賽:國產多模態模型挑戰 OpenAI

在人工智慧領域,一場新的競賽正在展開,而這次的焦點是一款能夠與 OpenAI 的滿血版 o1 (Full Version) 相媲美的國產多模態模型。月之暗面近日發布的 Kimi k 系列模型的最新版本——k1.5 多模態思考模型,不僅在數學、程式碼和多模態推理能力上全面對標 OpenAI 的頂級模型,更是成為了 OpenAI 之外首個達到此高度的多模態模型。尤其值得一提的是,kimi-k1.5-short 模型在短鏈思維 (short cot) 模型領域達到了 SOTA (state-of-the-art) 水平,並以高達 550% 的提升幅度大幅領先 GPT-4o 和 Claude 3.5 Sonnet。

這一成就標誌著中國在人工智慧領域取得了重大突破,月之暗面也成為國內首家在數學和程式碼能力上達到滿血版 o1 水平的 AI 公司。此前的模型在各項基準測試中僅能達到 o1-preview 的水平,而 Kimi k1.5 的出現,無疑給業界帶來了新的驚喜。

那麼,Kimi k1.5 是如何做到這一點的呢?月之暗面同步發布的技術報告揭示了他們在模型訓練技術上的探索之路。這份報告不僅詳細介紹了他們的技術範式,還公開了其背後所採用的強化學習技術。這種技術透明度在當前競爭激烈的大模型市場中實屬罕見。月之暗面表示,他們希望透過公開技術細節,吸引更多技術人才加入,共同推動 AGI (通用人工智慧) 的發展。

Kimi k1.5 的卓越性能

Kimi k1.5 多模態推理模型在多項測試中均展現出 SOTA 等級的推理能力和通用能力。具體而言:

  • 長鏈思維 (long-CoT) 模式: 在數學、程式碼和多模態推理方面,Kimi k1.5 達到了 OpenAI o1 正式版的水平。在 AIME 測試中,Kimi k1.5 得分 77.5 分,在 MATH 500 測試中得分 96.2 分,在 Codeforces 測試中達到 94 百分位,在 MathVista 測試中得分 74.9 分。這些成績表明,Kimi k1.5 是 OpenAI 之外,全球首個實現 o1 滿血版性能的模型。
  • 短鏈思維 (short-CoT) 模式: Kimi k1.5 在數學、程式碼、視覺多模態和通用能力上也達到了全球短思考 SOTA 模型水平,並大幅領先 GPT-4o 和 Claude 3.5 Sonnet。例如,Kimi k1.5 在 AIME 測試中得分 60.8 分,MATH500 測試中得分 94.6 分,LiveCodeBench 測試中得分 47.3 分。

此外,Kimi k1.5 在全球前沿大模型數學競賽和程式設計競賽基準測試中也表現出色,處於全球第一梯隊,而這兩項測試被視為人類智商的巔峰體現。這些數據都充分證明了 Kimi k1.5 在推理能力上的顯著提升,能夠幫助用戶解決更複雜的程式碼、數學和生活問題。

Kimi k1.5 的訓練秘訣

隨著模型尺寸的增大,預訓練階段參數的 scaling up 帶來的邊際收益遞減。為了深度提升模型推理能力和長程問題能力,基於強化學習的 Post-Training 成為了新的突破點。Kimi 技術團隊在 Kimi k1.5 的訓練實踐中,全面探索了 RL 訓練技術、多模態數據配方和基礎設施優化。

他們所探索的 RL 框架簡單而有效,無需依賴蒙特卡洛樹搜索、價值函數和過程獎勵模型等複雜技術也能取得優異的性能。此外,他們還提出了有效的 long2short 技術,利用 Long-CoT 技術改進 Short-CoT 模型,從而在短鏈思維推理方面取得了最佳成果。

簡單有效的 RL 框架

Kimi 技術團隊設計的 RL 框架基於兩個關鍵要素:長上下文 scaling 和改進的策略優化。

  • 長上下文 scaling: 他們將強化學習的上下文窗口擴展到 128k,並觀察到隨著上下文長度的增加,模型性能持續改善。他們採用 partial rollout 方法,透過重用大量以前的軌跡來採樣新的軌跡,從而提高訓練效率。
  • 改進的策略優化: 他們推導出了一個具有 long-CoT 的強化學習公式,並採用在線鏡像下降法的變體來實現穩健的策略優化。透過有效的採樣策略、長度懲罰和數據配方的優化,他們進一步改進了該演算法。

透過結合這兩個關鍵要素,Kimi 技術團隊建立了一個用於 LLM 學習的簡化強化學習框架。該框架能夠 scale 上下文長度,使學習到的 CoT 展現出規劃、反思和糾正的特性。此外,他們的模型還在文字和視覺數據上進行了聯合訓練,具備對這兩種模態進行聯合推理的能力。

Long2short 技術

儘管 long-CoT 模型在性能上表現出色,但在測試時消耗的 token 數量更多。Kimi 技術團隊發現,將 long-CoT 模型的思維先驗遷移到 short-CoT 模型中是可行的。他們提出了幾種解決 long2short 問題的方法:

  • 模型融合: 透過簡單地平均 long-CoT 模型和 short-CoT 模型的權重來實現模型融合,從而在不進行訓練的情況下獲得一個新模型,並有效提升 token 效率。
  • 最短拒絕採樣: 對同一個問題採樣多次,並選擇最短的正確響應進行監督微調。
  • DPO: 利用 Long CoT 模型生成多個響應樣本,選擇最短的正確解決方案作為正樣本,較長的響應則被視為負樣本,用於 DPO 訓練。
  • Long2short RL: 在標準的 RL 訓練階段之後,選擇一個在性能和 token 效率之間達到最佳平衡的模型作為基礎模型,並進行單獨的 long2short RL 訓練階段,並應用長度懲罰機制。

這些技術使得 Kimi k1.5 模型在保持高性能的同時,也提高了 token 的使用效率。

2025:加速升級 k 系列強化學習模型

OpenAI 在 2024 年推出的 GPT-4o 和 o1 模型分別代表了多模態理解和強化學習兩條技術路線。國內 AI 公司也在這些領域展開了激烈競爭。Kimi 模型在能力上最接近 o1,這讓外界對月之暗面在 2025 年的表現充滿了期待。

月之暗面表示,2025 年他們將繼續加速升級 k 系列強化學習模型,帶來更多模態、更多領域的能力和更強的通用能力。我們期待新模型的早日上線,為人工智慧領域帶來更多創新和突破。