OpenAI 最新模型 o3 與 o3-mini：邁向 AGI 的重要一步

OpenAI 近期發表了其最新的 AI 模型 o3 與 o3-mini，由於商標問題跳過了 o2。o3 是一個功能強大的模型，正逼近人工通用智慧（AGI），在複雜的推理任務中表現出色。而 o3-mini 則是一個更輕巧、快速且更具成本效益的選擇，適用於日常任務。這些模型展示了人工智慧在推理能力上的顯著進步，特別是在數學、編碼和抽象問題解決方面。

o3：最強大的推理模型

卓越的性能表現

在數學推理方面表現優異，在 AIME 數學競賽中獲得 96.7% 的高分，超越了以往的模型甚至人類專家。
在 CodeForces 上獲得 2727 分，躋身全球頂尖 200 名程式設計師之列。
在 ARC-AGI 基准測試中達到 87.5% 的成績，超越了 85% 的人類門檻。

關鍵特性

在軟體工程、數學和科學推理方面展現了顯著的進步。
在 FrontierMath 基准測試中表現出色，這是一個極具挑戰性的數學測試。
在抽象推理和泛化能力方面表現出卓越的能力，這可以從其在 ARC-AGI 基准測試中的表現得到證明。

深遠的影響

代表人工智慧能力的一次重大飛躍，更接近 AGI 的實現。
突顯了人工智慧在解決各領域複雜問題方面的潛力。

o3-Mini：更快速且更具成本效益

模型特性

o3 的一個更小、更快、更具成本效益的版本。
提供低、中、高三種推理時間模式，以靈活處理各種任務。
適用於資源受限的環境和日常任務。

模型能力

在基礎數學、編碼和一般推理任務中表現良好。
展示了生成和執行程式碼的能力，包括 API 調用和使用者介面整合。
能夠進行自我測試，這可以從其在 GPQA 數據集上的表現得到證明。

應用場景

適用於中小型專案、基礎程式設計、資料分析和教育用途。
為計算資源有限的使用者提供更易於使用的選擇。

OpenAI 12 天活動亮點

第一天： 完整版的 o1 模型，具有更高的智慧、速度和多模式輸入支援；ChatGPT Pro 訂閱方案。
第二天： 引入了強化學習微調（RFT），以提高模型的性能。
第三天： Sora Turbo，一個更快的影片生成模型，具有更高的解析度和編輯功能。
第四天： 升級的 Canvas 工具，具有新功能和使用者友好的介面。
第五天： ChatGPT 與 Apple 裝置（iOS、iPadOS、macOS）整合。
第六天： 增強的 ChatGPT 進階語音模式，具有即時影片理解功能。
第七天： 推出「專案」功能，用於管理對話和檔案。
第八天： 完整發布 ChatGPT 搜尋，具有更高的速度、準確性和語音搜尋功能。
第九天： o1 API 發布，具有高效的視覺識別和即時語音互動功能。
第十天： WhatsApp 與 1-800-CHAT-GPT 服務整合。
第十一天： ChatGPT 桌面版本，具有跨應用程式存取功能。
第十二天： 發布 o3 和 o3-mini 模型。

關鍵概念解釋

AIME（美國邀請數學考試）： 美國高中生參加的一項具有挑戰性的數學競賽。
CodeForces： 一個流行的程式設計競賽平台。
ARC-AGI（人工通用智慧的抽象和推理語料庫）： 一個旨在衡量人工智慧在新的情境中進行泛化和推理能力的基準。
GPQA（通用問題回答）： 一個包含各種科學領域具有挑戰性的多項選擇題的數據集。
FrontierMath： 由頂尖數學家開發的一項極具挑戰性的數學基準。

OpenAI 的 o3 和 o3-mini 模型的發布，標誌著人工智慧發展的重大進展，展現了推理能力方面的顯著進步。o3 專為複雜任務和高性能環境而設計，而 o3-mini 則為日常應用提供了更易於使用且更具成本效益的解決方案。OpenAI 為期 12 天的活動突顯了他們致力於推動人工智慧邊界並將其整合到生活各個方面的決心。通往 AGI 的旅程仍在繼續，而這些模型代表著一個重要的里程碑。