果然最强！OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩，标准计算条件下得分高达75.7%，而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外，但仍无法证明人工智能通用性（AGI）已被破解。

ARC-AGI 基准测试基于抽象推理库（Abstract Reasoning Corpus），该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题，需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题，而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最具挑战性的标准之一。

o3的表现显著优于以往的模型。o1-preview 和 o1模型在 ARC-AGI 上的最高得分为32%。在此之前，研究人员 Jeremy Berman 采用混合方法将 Claude3.5Sonnet 与遗传算法结合，取得了53% 的分数，而 o3的出现则被视为 AI 能力的飞跃。

ARC 的创建者 François Chollet 称赞 o3在 AI 能力上的质变，认为其在新任务适应能力上达到了一种前所未有的水平。

尽管 o3的表现出色，但其计算成本也相当高。在低计算配置下，解决每个难题的费用在17到20美元之间，需消耗3300万个代币;而在高计算配置下，计算成本则增加至172倍，使用数十亿个令牌。然而，随着推理成本的逐步降低，这些开销可能会变得更加合理。

关于 o3如何达到这一突破，目前尚无详细的信息。有科学家猜测，o3可能使用了一种程序合成方法，结合链式思维和搜索机制。而另一些科学家则认为，o3可能只是通过进一步扩展强化学习而来。

尽管 o3在 ARC-AGI 上取得了重大进展，但 Chollet 强调，ARC-AGI 并不是 AGI 的测试，o3仍未达到 AGI 的标准。它在某些简单任务上依然表现不佳，显示出与人类智能之间的根本差异。此外，o3在推理过程中仍然依赖外部验证，这与 AGI 的独立学习能力相去甚远。

Chollet 团队正在开发新的挑战性基准，以检验 o3的能力，预计会将其得分降低到30% 以下。他指出，真正的 AGI 将意味着创造出对普通人来说简单但对 AI 来说困难的任务几乎变得不可能。