近期,關於人工智能基準測試的爭論在公衆視野中愈演愈烈。OpenAI 的一名員工指責馬斯克創辦的 AI 公司 xAI 發佈了誤導性的 Grok3基準測試結果,而 xAI 的聯合創始人伊戈爾・巴布申金則堅稱公司沒有問題。
事件的起因是 xAI 在其博客上發佈了一張圖表,展示了 Grok3在 AIME2025測試中的表現。AIME2025是最近一場數學邀請賽中的一系列挑戰性數學問題的集合。雖然一些專家對 AIME 作爲 AI 基準的有效性表示懷疑,但它仍然被廣泛用來評估模型的數學能力。
xAI 的圖表顯示,Grok3的兩個變體 ——Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的表現上超過了 OpenAI 當前最佳模型 o3-mini-high。然而,OpenAI 的員工很快指出,xAI 的圖表沒有包含 o3-mini-high 在 AIME2025上以 “cons@64” 計算的分數。
那麼,什麼是 cons@64呢?它是 “consensus@64” 的縮寫,簡單來說,它給模型提供64次嘗試回答每個問題的機會,並將生成答案中最常見的答案作爲最終答案。可以想象,cons@64的評分機制會顯著提升模型的基準分數,因此如果在圖表中省略這一數據,可能會讓人誤以爲一個模型的表現超過了另一個模型,但實際上情況並非如此。
Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的 “@1” 分數,即模型首次嘗試獲得的分數,實際上低於 o3-mini-high 的分數。而 Grok3Reasoning Beta 的表現也略遜於 OpenAI 的 o1模型。儘管如此,xAI 仍將 Grok3宣傳爲 “世界上最聰明的 AI”。
巴布申金在社交媒體上回應稱,OpenAI 過去也發佈過類似的誤導性基準圖表,主要是對比自身模型的表現。而一位中立的專家則將各種模型的表現整理成一張更 “準確” 的圖表,引發了更廣泛的討論。
此外,AI 研究者納森・蘭伯特指出,一個更爲重要的指標卻仍然不明朗:各模型取得最佳分數所需的計算(和財務)成本。這也表明,當前大多數 AI 基準測試所傳達的信息對於模型的侷限性及其優勢仍顯得有限。
劃重點:
🔍 xAI 與 OpenAI 之間關於 Grok3基準測試結果的爭論引發廣泛關注。
📊 xAI 的圖表未包含 OpenAI 模型的關鍵評分指標 “cons@64”,可能導致誤導。
💰 AI 模型表現的背後,計算和財務成本仍然是一個未解之謎。