AI模型性能與成本大比拼:Grok4與GPT-5基準測試結果深度分析

根據 ARC 獎最新發佈的測試結果，主流 AI 模型的性能和成本差異顯著。在評估模型一般推理能力的 ARC-AGI-2基準測試中，GPT-5（高級） 的得分爲9.9%，每項任務成本爲0.73美元。而 Grok4（思考型） 的表現略勝一籌，準確率達到16%，但其成本也更高，每項任務需要2至4美元。這表明在複雜的推理任務上，Grok4性能佔優，但成本效益遠不如 GPT-5。

ARC-AGI 基準上領先語言模型的性能和成本比較。| 圖片:ARC-AGI

在要求相對較低的 ARC-AGI-1 測試中，Grok4再次以68% 的準確率領先，略高於 GPT-5的65.7%。儘管 Grok4的準確率更高，但其每項任務約1美元的成本遠高於 GPT-5的0.51美元，使得 GPT-5 在此測試中更具性價比。不過，xAI 仍有可能通過價格調整來縮小這一差距。

此外，報告還提到了 GPT-5的輕量級版本。GPT-5Mini 在 AGI-1和 AGI-2上的得分分別爲54.3% 和4.4%，成本分別爲0.12美元和0.20美元。而更小巧的 GPT-5Nano 在 AGI-1上達到16.5%（0.03美元），在 AGI-2上達到2.5%(0.03美元)。

ARC-AGI-1對 Grok4、GPT-5和較小模型變體的測試結果。| 圖片:ARC 獎

值得注意的是，在 ARC-AGI-1測試中，於2024年12月發佈的 o3-preview 模型以接近80% 的驚人準確率遙遙領先，但其成本遠超其他競爭者。儘管 OpenAI 在其 GPT-5演示中並未提及 ARC 獎，但據 The Information 報道，該公司可能爲了適應後續的聊天版本而大幅削減了 o3-preview 的能力。

除了上述基準測試，ARC-AGI-3也在進行中，該測試要求模型在類似遊戲的交互環境中通過反覆試驗來解決任務。儘管人類可以輕鬆應對，但大多數 AI 代理在視覺益智遊戲中仍然面臨挑戰。

OpenAI 告別 GPT-4o:2026年2月13日正式下架舊模型

OpenAI宣佈將於2026年2月13日從ChatGPT模型選擇器中移除GPT-4o及其衍生模型，包括GPT-4.1、GPT-4.1mini和o4-mini。這些模型將暫時保留在API中供開發者使用，而普通用戶將全面轉向更先進的GPT-5系列。OpenAI解釋稱，這一決策基於真實使用數據，技術演進是主要原因。

OpenAI計算利潤率飆升至70%！內部指標翻倍，商業化效率顯著提升

在鉅額投入與擴張表象下，OpenAI正悄然實現商業化效率躍升。知情人士透露，其內部關鍵指標“計算利潤率”已從2024年初水平翻倍，至2025年10月攀升至70%。儘管未獲官方確認，這一數據釋放出強烈信號：這家曾以“燒錢”著稱的AI巨頭正加速轉向盈利。

AI模型性能與成本大比拼:Grok4與GPT-5基準測試結果深度分析

相關推薦

OpenAI 告別 GPT-4o:2026年2月13日正式下架舊模型

ChatGPT 每週處理200萬保險難題，醫療查詢佔比超5%

ChatGPT 每週處理200萬保險難題，醫療查詢佔比超5%

GPT-5 首次獨立攻克數學難題，透明化歸因實驗引發學界爭論

OpenAI計算利潤率飆升至70%！內部指標翻倍，商業化效率顯著提升