AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

根据 ARC 奖最新发布的测试结果，主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中，GPT-5（高级） 的得分为9.9%，每项任务成本为0.73美元。而 Grok4（思考型） 的表现略胜一筹，准确率达到16%，但其成本也更高，每项任务需要2至4美元。这表明在复杂的推理任务上，Grok4性能占优，但成本效益远不如 GPT-5。

ARC-AGI 基准上领先语言模型的性能和成本比较。| 图片:ARC-AGI

在要求相对较低的 ARC-AGI-1 测试中，Grok4再次以68% 的准确率领先，略高于 GPT-5的65.7%。尽管 Grok4的准确率更高，但其每项任务约1美元的成本远高于 GPT-5的0.51美元，使得 GPT-5 在此测试中更具性价比。不过，xAI 仍有可能通过价格调整来缩小这一差距。

此外，报告还提到了 GPT-5的轻量级版本。GPT-5Mini 在 AGI-1和 AGI-2上的得分分别为54.3% 和4.4%，成本分别为0.12美元和0.20美元。而更小巧的 GPT-5Nano 在 AGI-1上达到16.5%（0.03美元），在 AGI-2上达到2.5%(0.03美元)。

ARC-AGI-1对 Grok4、GPT-5和较小模型变体的测试结果。| 图片:ARC 奖

值得注意的是，在 ARC-AGI-1测试中，于2024年12月发布的 o3-preview 模型以接近80% 的惊人准确率遥遥领先，但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5演示中并未提及 ARC 奖，但据 The Information 报道，该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。

除了上述基准测试，ARC-AGI-3也在进行中，该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对，但大多数 AI 代理在视觉益智游戏中仍然面临挑战。

OpenAI 告别 GPT-4o:2026年2月13日正式下架旧模型

OpenAI宣布将于2026年2月13日从ChatGPT模型选择器中移除GPT-4o及其衍生模型，包括GPT-4.1、GPT-4.1mini和o4-mini。这些模型将暂时保留在API中供开发者使用，而普通用户将全面转向更先进的GPT-5系列。OpenAI解释称，这一决策基于真实使用数据，技术演进是主要原因。

OpenAI计算利润率飙升至70%！内部指标翻倍，商业化效率显著提升

在巨额投入与扩张表象下，OpenAI正悄然实现商业化效率跃升。知情人士透露，其内部关键指标“计算利润率”已从2024年初水平翻倍，至2025年10月攀升至70%。尽管未获官方确认，这一数据释放出强烈信号：这家曾以“烧钱”著称的AI巨头正加速转向盈利。

AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

相关推荐

OpenAI 告别 GPT-4o:2026年2月13日正式下架旧模型

ChatGPT 每周处理200万保险难题，医疗查询占比超5%

ChatGPT 每周处理200万保险难题，医疗查询占比超5%

GPT-5 首次独立攻克数学难题，透明化归因实验引发学界争论

OpenAI计算利润率飙升至70%！内部指标翻倍，商业化效率显著提升