根據 ARC 獎最新發佈的測試結果,主流 AI 模型的性能和成本差異顯著。在評估模型一般推理能力的 ARC-AGI-2基準測試中,GPT-5(高級) 的得分爲9.9%,每項任務成本爲0.73美元。而 Grok4(思考型) 的表現略勝一籌,準確率達到16%,但其成本也更高,每項任務需要2至4美元。這表明在複雜的推理任務上,Grok4性能佔優,但成本效益遠不如 GPT-5。
ARC-AGI 基準上領先語言模型的性能和成本比較。| 圖片:ARC-AGI
在要求相對較低的 ARC-AGI-1 測試中,Grok4再次以68% 的準確率領先,略高於 GPT-5的65.7%。儘管 Grok4的準確率更高,但其每項任務約1美元的成本遠高於 GPT-5的0.51美元,使得 GPT-5 在此測試中更具性價比。不過,xAI 仍有可能通過價格調整來縮小這一差距。
此外,報告還提到了 GPT-5的輕量級版本。GPT-5Mini 在 AGI-1和 AGI-2上的得分分別爲54.3% 和4.4%,成本分別爲0.12美元和0.20美元。而更小巧的 GPT-5Nano 在 AGI-1上達到16.5%(0.03美元),在 AGI-2上達到2.5%(0.03美元)。
ARC-AGI-1對 Grok4、GPT-5和較小模型變體的測試結果。| 圖片:ARC 獎
值得注意的是,在 ARC-AGI-1測試中,於2024年12月發佈的 o3-preview 模型以接近80% 的驚人準確率遙遙領先,但其成本遠超其他競爭者。儘管 OpenAI 在其 GPT-5演示中並未提及 ARC 獎,但據 The Information 報道,該公司可能爲了適應後續的聊天版本而大幅削減了 o3-preview 的能力。
除了上述基準測試,ARC-AGI-3也在進行中,該測試要求模型在類似遊戲的交互環境中通過反覆試驗來解決任務。儘管人類可以輕鬆應對,但大多數 AI 代理在視覺益智遊戲中仍然面臨挑戰。