近日,OpenAI 推出的 o3人工智能模型在基準測試中的表現引發了廣泛爭議。儘管 OpenAI 在去年12月首次發佈 o3時自信地宣稱該模型在極具挑戰性的 FrontierMath 數學問題集上能夠正確回答超過四分之一的問題,但這一聲稱與最近的獨立測試結果形成鮮明對比。
Epoch 研究所對 o3模型進行了獨立測試,結果顯示該模型的實際得分僅爲10%,遠低於 OpenAI 之前所宣稱的25%。在 OpenAI 首席研究官 Mark Chen 的公開演示中,他表示 o3模型的內部測試結果十分優秀,遠超競爭對手,後者在同一問題集上的正確率不足2%。然而,這個理想化的高分數可能是通過使用更強大計算資源的 o3版本實現的,而並非是上週正式發佈的版本。

Epoch 在其報告中指出,測試結果的差異可能源於多種因素,包括 OpenAI 使用了更先進的計算框架和不同的測試條件。同時,該機構也提到,他們的評估是基於更新版本的 FrontierMath,這可能導致結果的不同。
此外,ARC Prize 基金會也發表聲明,表示公開發布的 o3模型與他們早前測試的預發佈版本有很大不同,公開版經過了針對聊天和產品使用的調整,且計算層級普遍較小。通常情況下,計算層級越大,基準測試得分越好。
雖然 o3模型未能完全達到 OpenAI 的測試標準,但這似乎並不影響其市場表現,因爲 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表現得更爲出色。更令人期待的是,OpenAI 將在不久後推出更強大的 o3版本 ——o3-pro。
此次事件再一次警示公衆,AI 基準測試的結果不應被完全信任,尤其是來自於有產品推出壓力的公司。在競爭激烈的 AI 行業中,各大廠商爲了爭奪市場份額,往往急於推出新模型,而這也使得基準測試的爭議日益增多。
