Published on

OpenAI o3 模型:推理能力飞跃与 ARC AGI 突破

作者
  • avatar
    姓名
    Ajax
    Twitter

OpenAI的o3模型:推理能力飞跃与ARC AGI突破

OpenAI 近期公布了其 o3 模型预览,该模型在推理能力方面取得了显著进展,尤其是在解决 ARC AGI 挑战方面。这标志着人工智能领域在理解和解决复杂问题上迈出了重要一步。

o3 模型的关键亮点

  • 多次生成共识的重要性: o1 模型最佳性能的关键在于多次生成共识,这适用于所有推理阶段的计算。为了获得最佳结果,不能仅依赖单一的输出流。
  • 架构推测: 尽管有传言说 o3 通过添加树搜索改变了推理架构,但没有证据支持这一说法。推理扩展定律的核心规则仍然是从同一单流生成中采样更多内容以提升性能。
  • 强化学习的回归: 2024 年无疑是强化学习 (RL) 及相关方法重新确立为人工智能核心的一年。o3 模型正是通过强化学习训练而来。
  • o3 模型预览: OpenAI 公布了 o3 模型预览,进一步发展了近期在训练语言模型以使用 o1 进行推理方面的进展。这些模型将从 o3-mini 开始,预计在 2025 年 1 月底向公众开放。
  • 2024 年人工智能整合之年: 许多观察家认为 2024 年是人工智能的整合之年,许多参与者已经达到了与 GPT-4 相当的水平,并开始探索如何实际应用这些模型。
  • o3 的意外突破: o3 的出现改变了 2024 年没有像 "GPT-4 发布" 那样令人兴奋的时刻的局面。o3 比 o1 更出乎意料,并且标志着推理模型的快速进步。
  • o1 类模型的广泛应用: 尽管许多人质疑 o1 类模型在数学、编程、物理和硬科学以外领域的适用性,但这些模型很快将在整个人工智能研究生态系统中被广泛使用,从而显著加速进展。
  • 行业新高峰: OpenAI 的 o3 表明,行业正在攀登下一个高峰,因为仅依赖互联网文本进行预训练的收益正在减少。

o3 在推理评估中的重大突破

o3 在推理评估中实现了重大突破,具体表现在以下几个方面:

  • ARC AGI 奖项: 这是第一个在 ARC AGI 奖项中超过 85% 完成率的模型(注:这是在公开数据集上完成的,而非测试集,并且超出了成本限制)。
  • Frontier Math 基准测试: 在全新的 Frontier Math 基准测试中,性能从 2% 跃升至 25%,实现了质的飞跃。
  • 编程基准测试: 在所有领先的编程基准测试(如 SWE-Bench-Verified)上取得了显著改进。
  • 快速进展: 这一切距离模型的第一个版本宣布仅仅过去了 3 个月。这些变化将很快通过加速人工智能研究的进展而显现出来。
  • 软件工程角色的改变: 随着推理成本的下降,这将成为改变我们今天所知的许多软件工程角色的又一步。

o3 概览

  • 发布: OpenAI 的 o3 模型在 "OpenAI 的 12 天发布活动" 最后一天宣布。此次发布伴随着其在多个领域超越之前最先进模型(Gemini 1.5 Pro 和 Claude 3.5 Sonnet New)的惊人成绩。
  • 多次生成共识: 关于 o1 系列模型的博客文章和相关交流中,一个常被忽略的细节是柱状图中阴影的含义。在 o1 的首篇博客文章中,第一张结果图的说明中提到了这一点:实心柱表示 pass@1 的准确率,阴影区域表示使用 64 个样本进行多数投票(共识)的性能。
  • 并行生成: o1 的专业模式以及 ARC 奖项结果,依赖于这种并行生成来实现绝对最高分。
  • Frontier Math 基准测试: 该基准测试于 11 月 7 日引入,并被列为 AI 能力中少数尚未攻克的开放前沿之一。此次发布将 OpenAI 的 o3 定位为唯一达到两位数得分的模型,并直接跃升至 25%。
  • 编程领域: 在直播中,OpenAI 展示了 SWE-Bench Verified 的 71.7% 得分,以及在 Codeforces(一个编程竞赛网站)上的广泛结果。
  • 国际特级大师水平: o3 在某个未公开的 N 值下通过共识投票的得分为 2727,达到了国际特级大师水平,约位列全球人类竞赛程序员的前 200 名。
  • o3-mini 的优势: o3-mini 的性能优于 o1,同时成本显著降低。这可能会成为更广泛用户群体使用的更具影响力的模型。

应对 ARC 评估

  • ARC 的定义: 抽象与推理语料库(ARC)是由 François Chollet 在其 2019 年的论文《论智能的衡量》中提出的一种人工智能评估方法。
  • ARC 的设计初衷: ARC 评估的设计初衷是为了更贴近对人类智能的评估,基于算法信息理论提出了新的智能形式化定义。
  • ARC AGI 奖: ARC AGI 奖于 2024 年 6 月启动,设立了 100 万美元的奖金,奖励第一个满足特定标准并解决一组私有 ARC 任务的解决方案。
  • 解决 ARC 任务的门槛: 被认为 "解决" 该任务的门槛是达到 85% 的准确率。
  • o3 的突破性进展: 在 o1 类模型之前,OpenAI 的最佳模型 GPT-4o 仅达到了 5% 的准确率。o3 在 ARC AGI 任务上的快速进展令人瞩目。
  • o3 的测试结果: OpenAI 用两个 ARC-AGI 数据集测试了 o3:半私有评估(100 个私有任务)和公开评估(400 个公开任务)。测试在两种计算水平下进行,样本规模可变:6(高效模式)和 1024(低效模式)。
  • 成本问题: 目前,ARC 奖项博客中引用的 o3 价格(在 OpenAI 的交流中被改为相对于 o1 的相对价格)揭示了许多关于 o3 技术运作的细节。解决 ARC 问题的成本仍然很高。

o3 的架构、成本与训练方式

  • 成本估算: ARC AGI 团队直接与 OpenAI 合作,获取了其模型的价格估算。o3 在 API 中正式上线后的最终定价很可能会有所不同。
  • 推理扩展定律: 基于推理扩展定律的重要性,ARC-AGI 团队为提交解决方案进行私密评估增加了一项额外要求,记录了总成本和每个任务的成本,作为 FLOPs 的代理指标。
  • 成本限制: 10,000美元是解决500个任务所能花费的运行成本上限,这包括调用商业API的费用。o3的成本远远超出了这一限制,每次查询成本远超10,000 美元是解决 500 个任务所能花费的运行成本上限,这包括调用商业 API 的费用。o3 的成本远远超出了这一限制,每次查询成本远超 1,000。
  • 模型性质的推测: Chollet 明确表示他是在推测 o3 的工作原理:o3 的核心机制似乎是在 token 空间内进行自然语言程序搜索和执行,模型会搜索可能的思维链 (CoTs) 空间,其方式可能与 AlphaZero 风格的蒙特卡洛树搜索有些相似。
  • 强化学习训练: OpenAI 的员工强调了 o3 “只是一个通过强化学习训练的模型”的本质。
  • token 生成量: 根据 ARC 奖项结果图表,完整 o3 的每次查询成本约为 $5000。将总成本除以每 token 的价格,得出的结果是模型每次回答生成了 8000 万 token,这在没有长上下文模型的极大改进的情况下是不可能的。
  • 计算水平测试: 在 OpenAI 的指导下,测试使用了两种计算水平,样本规模可变:6(高效模式)和 1024(低效模式,计算量为前者的 172 倍)。
  • self-consistency 方法: o1 pro 使用了 self-consistency 方法或简单的 consensus@N 检查,通过选择对同一查询的多个并行响应中最常见的答案来提高性能。o3 的评估配置接近于客户可以使用的 o1 pro 配置。
  • 基础模型: 实际上,o3 似乎还受益于一个更大的基础模型。
  • 深度学习的进展: 近年来推动深度学习进展的核心故事是找到一个潜力丰富的领域并在其上不断攀登。第一波进展来自互联网规模的预训练。现在,OpenAI 通过扩展强化学习训练和长上下文推理,找到了一个新的攀登方向。
  • o3 的架构: 最简单的解释是 o3 采用了与 o1 相同的架构和训练方法,只是规模更大。
  • 推理扩展定律: 推理扩展定律的核心规则是,从同一单流生成中采样更多内容可以带来性能提升。
  • Orion: 关键问题在于,o3 的基础模型是否是 Orion(OpenAI 内部代号,可能是 GPT-5),还是新基础模型仅在训练时受益于 Orion。
  • o3 的不确定性: 关于 o3 的具体细节仍然存在不确定性,但很明显,o1 级别的模型将长期存在。

RL 的回归

  • Anthropic 的洞见: Anthropic 的联合创始人兼 CEO Dario Amodei 分享道,将这些模型扩展的全部原因是它们的智能还不足以让我们在其基础上进行 RLHF(使用人类反馈的强化学习)。
  • RLHF 的潜力: Dario 很可能早已直觉到,所有关于微调技术的进展即将到来。这种对 RLHF 潜力的看法,比大多数从业者的认知都更加广阔和深远。
  • 强化学习的复兴: 今年,无疑是强化学习 (RL) 及相关方法重新确立为人工智能核心的一年。
  • 未来展望: 可以预见的是,类似 o1 风格的模型将会在未来很长一段时间内成为人工智能工具箱中的默认工具。