Published on

OpenAI o3 模型:推理能力與 ARC AGI 的重大突破

Authors
  • avatar
    Name
    Ajax
    Twitter

OpenAI 的 o3 模型:推理能力與 ARC AGI 的重大突破

多次生成共識對於 o1 模型的最佳性能至關重要。這適用於所有推理階段的計算——為了獲得最佳結果,不能僅依賴單一的輸出流。

沒有任何證據表明 o3 通過添加樹搜索對推理架構進行了改變,所有的說法都只是道聽途說。推理擴展定律的核心規則是,從同一單流生成中採樣更多內容可以帶來性能提升。

今年,無疑是強化學習(RL)及相關方法重新確立為人工智慧核心的一年。

今天,OpenAI 公布了他們的 o3 模型預覽,進一步發展了近期在訓練語言模型以使用 o1 進行推理方面的進展。這些模型將從 o3-mini 開始,預計在 2025 年 1 月底向公眾開放。在 2024 年即將結束之際,許多觀察家認為今年是人工智慧的整合之年,許多參與者已經達到了與 GPT-4 相當的水平,並開始探索如何實際應用這些模型。

2024 年並沒有出現像“GPT-4 發布”那樣令人興奮的時刻。o3 的出現改變了這一點,因為它比 o1 更加出乎意料,並且標誌著推理模型的快速進步。我們早已知道 o1 的到來,因為它經歷了較長的準備期——而 o3 的快速高效發布,讓我們對 2025 年的發展充滿期待。

儘管許多人質疑 o1 類模型在數學、編程、物理和硬科學以外領域的適用性,但這些模型很快將在整個人工智慧研究生態系統中被廣泛使用,從而顯著加速進展。一種樂觀的觀點是,目前還沒有足夠的時間來探索這些模型的用途,也沒有公開的強化學習訓練方法來將推理模型擴展到其他領域。

OpenAI 的 o3 表明,行業正在攀登下一個高峰,因為僅依賴互聯網文本進行預訓練的收益正在減少。o3 在推理評估中實現了重大突破,具體表現在以下幾個方面:

  • 這是第一個在 ARC AGI 獎項中超過 85% 完成率的模型(注:這是在公開數據集上完成的,而非測試集,並且超出了成本限制)。
  • 在全新的 Frontier Math 基准測試中,性能從 2% 躍升至 25%,實現了質的飛躍。
  • 在所有領先的編程基准測試(如 SWE-Bench-Verified)上取得了顯著改進。

而這一切距離模型的第一個版本宣布僅僅過去了 3 個月。這些變化將很快通過加速人工智慧研究的進展而顯現出來。隨著推理成本的下降,這將成為改變我們今天所知的許多軟體工程角色的又一步。

與此同時,OpenAI 發布了一篇關於審慎對齊的博客文章和研究論文,展示了 o1 級模型如何增強安全性和對齊研究。這為之前提到的一個更為廣泛的開放性問題提供了一些初步的積極證據:增強的推理能力能否在可驗證領域之外帶來價值?這個問題將在 2025 年被多次重新審視。

o3 概覽

OpenAI 的 o3 模型在“OpenAI 的 12 天發布活動”最後一天宣布。此次發布伴隨著其在多個領域超越之前最先進模型(Gemini 1.5 Pro 和 Claude 3.5 Sonnet New)的驚人成績。

關於 o1 系列模型的博客文章和相關交流中,一個常被忽略的細節是柱狀圖中陰影的含義。在 o1 的首篇博客文章中,第一張結果圖的說明中提到了這一點:實心柱表示 pass@1 的準確率,陰影區域表示使用 64 個樣本進行多數投票(共識)的性能。

這一細節表明,多次生成的共識對於 o1 模型的最佳性能至關重要。這適用於所有推理階段的計算——為了獲得最佳結果,不能僅依賴單一的輸出流。然而,這並不意味著必須使用樹搜索或某種中間表示。o1 的專業模式以及我們將討論的 ARC 獎項結果,依賴於這種並行生成來實現絕對最高分。

關於 Frontier Math 基准測試的定性評價,可以參考兩位菲爾茲獎得主的評論。他們的評論針對的是基准測試中最難的部分,但這很好地體現了其定性目標:

“這些題目極其具有挑戰性……我認為它們至少在未來幾年內會讓 AI 束手無策。”—— Terence Tao,2006 年菲爾茲獎得主

“我看到的這些問題都不屬於我的研究領域,而且看起來完全是我無法解決的……它們似乎比 IMO(國際數學奧林匹克)問題的難度高出一個層次。”—— Timothy Gowers,2006 年菲爾茲獎得主

這一基准測試於 11 月 7 日引入,並被列為 AI 能力中少數尚未攻克的開放前沿之一。此次發布將 OpenAI 的 o3 定位為唯一達到兩位數得分的模型,並直接躍升至 25%。

第二個領先的結果出現在編程領域。在直播中,OpenAI 展示了 SWE-Bench Verified 的 71.7% 得分(這一成績在一定程度上是當前的最先進水平),以及在 Codeforces(一個編程競賽網站)上的廣泛結果。

o3 在某個未公開的 N 值下通過共識投票的得分為 2727,達到了國際特級大師水平,約位列全球人類競賽程式設計師的前 200 名。o3-mini 的性能優於 o1,同時成本顯著降低。鑒於我們在 2024 年觀察到的趨勢,這可能會成為更廣泛用戶群體使用的更具影響力的模型。這使得 o3 直播中的最終突破性成果成為可能——有效解決了 ARC AGI 挑戰。

應對 ARC 評估

抽象與推理語料庫(ARC)是由 François Chollet 在其 2019 年的論文《論智能的衡量》中提出的一種人工智慧評估方法。ARC 評估的設計初衷是為了更貼近對人類智能的評估:

我們基於演算法資訊理論提出了一種新的智能形式化定義,將智能描述為技能獲取效率,並強調了範圍、泛化難度、先驗知識和經驗的概念。基於這一定義,我們提出了一套通用人工智慧基準的設計指南。最後,我們展示了一個嚴格遵循這些指南的基準——抽象與推理語料庫(ARC),其構建基於一組明確的先驗知識,盡可能接近人類的先天先驗知識。我們認為,ARC 可以用來衡量一種類似人類的通用流動智能,並且能夠在人工智慧系統與人類之間實現公平的通用智能比較。

ARC AGI 獎於 2024 年 6 月啟動,設立了 100 萬美元的獎金,獎勵第一個滿足特定標準並解決一組私有 ARC 任務的解決方案。被認為“解決”該任務的門檻是達到 85% 的準確率。今天,OpenAI 和 ARC Prize 分享了以下結果:

仔細觀察價格的 x 軸,我們稍後會回到這個話題。

在 o1 類模型之前,OpenAI 的最佳模型 GPT-4o 僅達到了 5% 的準確率。OpenAI 在其新推理模型上的快速進展由 ARC 獎聯合創始人 Mike Knoop 總結如下:

  • GPT-2(2019 年):0%
  • GPT-3(2020 年):0%
  • GPT-4(2023 年):2%
  • GPT-4o(2024 年):5%
  • o1-preview(2024 年):21%
  • o1 high(2024 年):32%
  • o1 Pro(2024 年):約 50%
  • o3 tuned low(2024 年):76%
  • o3 tuned high(2024 年):87%

就在今年 6 月,人們還普遍認為解決 ARC-AGI 將會極其困難。然而,僅僅幾個月後,這一認知完全被顛覆了。即使是對 Q* 及其他推理方法持樂觀態度的人,也未曾預料到會取得如此程度的成功。

Chollet 在 ARC 獎官網上分享了更多細節:

我們用兩個 ARC-AGI 數據集測試了 o3:

  • 半私有評估:100 個私有任務,用於評估過擬合情況
  • 公開評估:400 個公開任務

在 OpenAI 的指導下,我們在兩種計算水平下進行了測試,樣本規模可變:6(高效模式)和 1024(低效模式,計算量為前者的 172 倍)。

以下是測試結果:

注意:o3 高計算成本的具體數據尚未公佈,因為定價和功能可用性仍待確定。計算量大約是低計算配置的 172 倍。

例如,以下是一個未解決的問題:

許多問題對人類來說非常直觀。為了將這些問題輸入模型,顏色被編碼為數字,並以網格形式作為上下文輸入,如 Greg Kamradt 所強調的那樣:

從技術上講,獎金尚未被領取,因為解決方案的成本超出了閾值且未開源。競賽仍在繼續。幾年內,這種類型的智能將變得幾乎免費。免費,指的是運行推理的成本將低於用戶廣告數據的貨幣價值。

目前,ARC 獎博客中引用的 o3 價格(在 OpenAI 的交流中被改為相對於 o1 的相對價格)揭示了許多關於 o3 技術運作的細節。

o3 的架構、成本與訓練方式

ARC AGI 團隊直接與 OpenAI 合作,獲取了其模型的價格估算。o3 在 API 中正式上線後的最終定價很可能會有所不同。基於推理擴展定律的重要性,ARC-AGI 團隊為提交解決方案進行私密評估增加了一項額外要求。在他們的博客文章中,團隊記錄了總成本和每個任務的成本,作為 FLOPs 的代理指標或計算資源使用量的直接計算。

這與 ARC 獎項公告中關於公共排行榜的一條規則一致(該規則與 100 萬美元獎金無關):

$10,000USD 是解決 500 個任務(包括公共評估集中的 400 個任務和一個新的半私密評估集中的 100 個任務)所能花費的運行成本上限,這包括調用商業 API 的費用。

在公共或半公共評估集的 500 個任務中,o3 的成本遠遠超出了這一限制。ARC 獎項顯示,o3 的每次查詢成本遠超 $1,000。他們還對模型的性質進行了假設。以下內容旨在平息關於 o3 是否採用了不同於 o1 的訓練技術的猜測。具體來說,Chollet 明確表示他是在推測:

目前,我們只能對 o3 的具體工作原理進行推測。但 o3 的核心機制似乎是在 token 空間內進行自然語言程式搜索和執行——在測試時,模型會搜索可能的思維鏈(CoTs)空間,這些思維鏈描述了解決任務所需的步驟,其方式可能與 AlphaZero 風格的蒙特卡洛樹搜索有些相似。在 o3 的情況下,搜索可能由某種評估器模型引導。

再次強調,關於 MCTS(蒙特卡洛樹搜索)的引用和假設是誤導性的,但可以理解,因為許多聰明的人都被 o1 和 o3 僅通過單一語言模型的前向傳遞實現的能力所震驚。我最近的一篇文章解釋了這如何通過大規模強化學習訓練實現,並說明了為什麼 OpenAI 的一些圖表在推理階段的計算成本上具有誤導性。OpenAI 的員工也強調了 o3“只是一個通過強化學習訓練的模型”的本質。

儘管如此,我們還是以 ARC 團隊記錄的成本為基礎,並結合 OpenAI 對 o1 的定價(60.00/百萬輸出token)進行分析。根據ARC獎項結果圖表,完整o3的每次查詢成本約為60.00/百萬輸出 token)進行分析。根據 ARC 獎項結果圖表,完整 o3 的每次查詢成本約為 5000。將總成本除以每 token 的價格,得出的結果是模型每次回答生成了 8000 萬 token,這在沒有長上下文模型的極大改進的情況下是不可能的。因此,關於不同搜索架構的猜測隨之而來。

關鍵在於 ARC 獎項博客文章中的一些細節,其中提到:

在 OpenAI 的指導下,我們在兩種計算水平下進行了測試,樣本規模可變:6(高效模式)和 1024(低效模式,計算量為前者的 172 倍)。

根據 SemiAnalysis 的說法,o1 pro 使用了 self-consistency 方法或簡單的 consensus@N 檢查,通過選擇對同一查詢的多個並行響應中最常見的答案來提高性能。在這裡,樣本規模 N 可能對應於 consensus@N 的數值,這表明 o3 的評估配置接近於客戶可以使用 o1 pro 配置,即 6 倍計算量,以及每個問題 1024 倍計算量的超高配置。

這種推理規模在很長一段時間內都不會向普通付費用戶開放。大多數用戶將接觸到的只是一次生成到 consensus@10 的結果,具體取決於 o1 模型“專業”版本的規格。

假設每百萬輸出 token 的價格仍為 $60,將其除以 1024 個流,意味著模型每次響應生成約 78,000 個 token。實際上,o3 似乎還受益於一個更大的基礎模型,因為從 OpenAI 在直播中展示的所有對數計算量 x 軸來看,o1 的計算成本顯著增加。使用更大的基礎模型,這些數字完全合理,並不暗示添加了額外的“搜索”元素。

近年來推動深度學習進展的核心故事是找到一個潛力豐富的領域並在其上不斷攀登。第一波進展來自互聯網規模的預訓練。現在,OpenAI 通過擴展強化學習訓練和長上下文推理,找到了一個新的攀登方向。鑒於 o3 距離 OpenAI 發布 o1 僅約三個月,最簡單的解釋是它採用了相同的架構和訓練方法,只是規模更大。

沒有任何證據表明 o3 通過添加樹搜索對推理架構進行了改變,所有的說法都只是道聽途說。推理擴展定律的核心規則是,從同一單流生成中採樣更多內容可以帶來性能提升。

關鍵問題在於,o3 的基礎模型是否是 Orion(OpenAI 內部代號,可能是 GPT-5),還是新基礎模型僅在訓練時受益於 Orion。如果基礎模型的規模增加了 2 到 5 倍,那麼從 ARC 獎項中報告的 API 價格來看,這些數據完全符合預期。

關於 o3 的具體細節仍然存在不確定性。ARC 團隊發布的圖表中,o3 模型旁標注了“(tuned)”,但尚未有關於 o3 的詳細說明。然而,當我們關注進展的趨勢時,很明顯,o1 級別的模型將長期存在。

最後,為了保持謙遜,這裡有一個 o3 未能解決的 ARC 獎項示例。它非常簡單。

我們顯然還有很長的路要走,但你應該感到興奮,並期待這些模型被廣泛使用的現實比大多數人預期的更早到來。假設 AI 會持續進步是最安全的選擇。

2024:RL 回歸

今天早些時候,Anthropic 發布了一段影片,主題是關於創建 Anthropic 的過程,由幾位聯合創始人參與討論。其中有一個出乎意料的細節由聯合創始人兼 CEO Dario Amodei 分享道:

“……將這些模型擴展的全部原因是它們的智能還不足以讓我們在其基礎上進行 RLHF(使用人類反饋的強化學習)。”

作為現代 RLHF 概念的創始人之一,Dario 很可能早已直覺到,所有關於微調技術的進展即將到來。這種對 RLHF 潛力的看法,比大多數從業者的認知都更加廣闊和深遠。

今年,無疑是強化學習(RL)及相關方法重新確立為人工智慧核心的一年。

寫這篇文章的過程是我說服自己,要在 2025 年訓練一個類似這樣的基於推理的語言模型。這種感覺就像 2024 年對科技公司來說,標準的預訓練已成為行業的基本要求一樣。可以預見的是,類似 o1 風格的模型將會在未來很長一段時間內成為人工智慧工具箱中的默認工具。我非常期待擁抱這種新的世界觀,並親身學習這些模型訓練的工作原理。