OpenAI o3 模型測試成績遭質疑，實際表現遠低於宣傳

近日，OpenAI 推出的 o3人工智能模型在基準測試中的表現引發了廣泛爭議。儘管 OpenAI 在去年12月首次發佈 o3時自信地宣稱該模型在極具挑戰性的 FrontierMath 數學問題集上能夠正確回答超過四分之一的問題，但這一聲稱與最近的獨立測試結果形成鮮明對比。

Epoch 研究所對 o3模型進行了獨立測試，結果顯示該模型的實際得分僅爲10%，遠低於 OpenAI 之前所宣稱的25%。在 OpenAI 首席研究官 Mark Chen 的公開演示中，他表示 o3模型的內部測試結果十分優秀，遠超競爭對手，後者在同一問題集上的正確率不足2%。然而，這個理想化的高分數可能是通過使用更強大計算資源的 o3版本實現的，而並非是上週正式發佈的版本。

OpenAI，ChatGPT，人工智能，AI

Epoch 在其報告中指出，測試結果的差異可能源於多種因素，包括 OpenAI 使用了更先進的計算框架和不同的測試條件。同時，該機構也提到，他們的評估是基於更新版本的 FrontierMath，這可能導致結果的不同。

此外，ARC Prize 基金會也發表聲明，表示公開發布的 o3模型與他們早前測試的預發佈版本有很大不同，公開版經過了針對聊天和產品使用的調整，且計算層級普遍較小。通常情況下，計算層級越大，基準測試得分越好。

雖然 o3模型未能完全達到 OpenAI 的測試標準，但這似乎並不影響其市場表現，因爲 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表現得更爲出色。更令人期待的是，OpenAI 將在不久後推出更強大的 o3版本 ——o3-pro。

此次事件再一次警示公衆，AI 基準測試的結果不應被完全信任，尤其是來自於有產品推出壓力的公司。在競爭激烈的 AI 行業中，各大廠商爲了爭奪市場份額，往往急於推出新模型，而這也使得基準測試的爭議日益增多。

OpenAI o3 模型測試成績遭質疑，實際表現遠低於宣傳

相關推薦

OpenAI 啓用 AI 模擬黑客攻擊，只爲修補代理式瀏覽器的致命漏洞

普利策得主領銜起訴六大AI巨頭！集體訴訟直指“盜版書訓練模型”，索賠或達百億級

AI日報：智譜發佈開源編程大模型GLM-4.7;豆包或成爲2026春晚AI合作伙伴;ChatGPT 推出年終回顧功能

時限逼近，軟銀急需225億美元資金支持 OpenAI

ChatGPT 推出年終回顧功能：AI 也有“年終總結”了