近期,開發 AI 數學基準的非營利組織 Epoch AI 因未及時披露其獲得 OpenAI 資金而引發爭議。該組織於12月20日宣佈,OpenAI 資助了名爲 FrontierMath 的項目,這是一項旨在測試 AI 數學能力的基準,OpenAI 還利用該基準展示了其即將推出的旗艦 AI 產品 o3。
Epoch AI 的一名承包商在論壇 LessWrong 上使用暱稱 “Meemi” 表示,許多參與 FrontierMath 項目的貢獻者在 OpenAI 的資助被公開之前並不知情。他提到:“關於這一點的溝通缺乏透明度。在我看來,Epoch AI 應該提前披露 OpenAI 的資金來源,承包商也應當清楚他們的工作有可能被用於能力評估時,才能決定是否參與基準的開發。”
社交媒體上,一些用戶對此表示擔憂,認爲這種保密行爲可能損害 FrontierMath 作爲客觀基準的聲譽。除了資助 FrontierMath 外,OpenAI 還對該基準中的許多問題和解決方案擁有可見性,而 Epoch AI 在12月20日之前並未對此進行披露。
斯坦福大學的數學博士生 Carina Hong 在社交平臺上指出,OpenAI 因與 Epoch AI 的合作而獲得了 FrontierMath 的優先訪問權,這讓一些貢獻者感到不滿。“六位對 FrontierMath 基準有顯著貢獻的數學家確認,他們並不知道 OpenAI 會獨佔這個基準,其他人將無法接觸到。”Hong 表示,大多數貢獻者在得知這一點後表示,如果早知道這一安排,他們可能不會參與該項目。
Epoch AI 副主任 Tamay Besiroglu 對此表示,雖然組織的透明度有所不足,但他認爲 FrontierMath 的完整性並未受到影響。他承認,Epoch AI 在溝通上存在失誤,未能提前告知貢獻者 OpenAI 的參與情況。
Besiroglu 表示,雖然 OpenAI 有權訪問 FrontierMath,但雙方有 “口頭協議”,OpenAI 不會使用該基準的問題集來訓練其 AI。Epoch AI 還保留了一份 “單獨的保留集”,以確保 FrontierMath 基準結果的獨立驗證。
Epoch AI 首席數學家 Ellot Glazer 在 Reddit 上提到,Epoch AI 尚未獨立驗證 OpenAI 的 FrontierMath o3結果。他認爲 OpenAI 的得分是可信的,但在獨立評估完成之前,無法對其進行確認。
劃重點:
💡 Epoch AI 因未及時披露 OpenAI 資金而受到批評,導致一些貢獻者感到不滿。
🔍 FrontierMath 基準的完整性受到質疑,OpenAI 在項目中獲得了優先訪問權。
🔒 Epoch AI 承認溝通失誤,但與 OpenAI 的合作仍保持透明的評估機制。
