根据 ARC 奖最新发布的测试结果,主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中,GPT-5(高级) 的得分为9.9%,每项任务成本为0.73美元。而 Grok4(思考型) 的表现略胜一筹,准确率达到16%,但其成本也更高,每项任务需要2至4美元。这表明在复杂的推理任务上,Grok4性能占优,但成本效益远不如 GPT-5。
ARC-AGI 基准上领先语言模型的性能和成本比较。| 图片:ARC-AGI
在要求相对较低的 ARC-AGI-1 测试中,Grok4再次以68% 的准确率领先,略高于 GPT-5的65.7%。尽管 Grok4的准确率更高,但其每项任务约1美元的成本远高于 GPT-5的0.51美元,使得 GPT-5 在此测试中更具性价比。不过,xAI 仍有可能通过价格调整来缩小这一差距。
此外,报告还提到了 GPT-5的轻量级版本。GPT-5Mini 在 AGI-1和 AGI-2上的得分分别为54.3% 和4.4%,成本分别为0.12美元和0.20美元。而更小巧的 GPT-5Nano 在 AGI-1上达到16.5%(0.03美元),在 AGI-2上达到2.5%(0.03美元)。
ARC-AGI-1对 Grok4、GPT-5和较小模型变体的测试结果。| 图片:ARC 奖
值得注意的是,在 ARC-AGI-1测试中,于2024年12月发布的 o3-preview 模型以接近80% 的惊人准确率遥遥领先,但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5演示中并未提及 ARC 奖,但据 The Information 报道,该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。
除了上述基准测试,ARC-AGI-3也在进行中,该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对,但大多数 AI 代理在视觉益智游戏中仍然面临挑战。