OpenAI 員工公開質疑 xAI：Grok 3 基準測試結果存在誤導

近期，關於人工智能基準測試的爭論在公衆視野中愈演愈烈。OpenAI 的一名員工指責馬斯克創辦的 AI 公司 xAI 發佈了誤導性的 Grok3基準測試結果，而 xAI 的聯合創始人伊戈爾・巴布申金則堅稱公司沒有問題。

事件的起因是 xAI 在其博客上發佈了一張圖表，展示了 Grok3在 AIME2025測試中的表現。AIME2025是最近一場數學邀請賽中的一系列挑戰性數學問題的集合。雖然一些專家對 AIME 作爲 AI 基準的有效性表示懷疑，但它仍然被廣泛用來評估模型的數學能力。

xAI 的圖表顯示，Grok3的兩個變體 ——Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的表現上超過了 OpenAI 當前最佳模型 o3-mini-high。然而，OpenAI 的員工很快指出，xAI 的圖表沒有包含 o3-mini-high 在 AIME2025上以 “cons@64” 計算的分數。

那麼，什麼是 cons@64呢?它是 “consensus@64” 的縮寫，簡單來說，它給模型提供64次嘗試回答每個問題的機會，並將生成答案中最常見的答案作爲最終答案。可以想象，cons@64的評分機制會顯著提升模型的基準分數，因此如果在圖表中省略這一數據，可能會讓人誤以爲一個模型的表現超過了另一個模型，但實際上情況並非如此。

Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的 “@1” 分數，即模型首次嘗試獲得的分數，實際上低於 o3-mini-high 的分數。而 Grok3Reasoning Beta 的表現也略遜於 OpenAI 的 o1模型。儘管如此，xAI 仍將 Grok3宣傳爲 “世界上最聰明的 AI”。

巴布申金在社交媒體上回應稱，OpenAI 過去也發佈過類似的誤導性基準圖表，主要是對比自身模型的表現。而一位中立的專家則將各種模型的表現整理成一張更 “準確” 的圖表，引發了更廣泛的討論。

此外，AI 研究者納森・蘭伯特指出，一個更爲重要的指標卻仍然不明朗:各模型取得最佳分數所需的計算（和財務）成本。這也表明，當前大多數 AI 基準測試所傳達的信息對於模型的侷限性及其優勢仍顯得有限。

劃重點:
🔍 xAI 與 OpenAI 之間關於 Grok3基準測試結果的爭論引發廣泛關注。
📊 xAI 的圖表未包含 OpenAI 模型的關鍵評分指標 “cons@64”，可能導致誤導。
💰 AI 模型表現的背後，計算和財務成本仍然是一個未解之謎。

馬斯克與微軟攜手，Grok人工智能模型將登陸Azure平臺

在近日召開的微軟 Build 開發者大會上，埃隆・馬斯克與微軟的 CEO 薩蒂亞・納德拉共同宣佈，將馬斯克的 xAI 公司推出的 Grok3和 Grok3迷你人工智能模型引入微軟的 Azure AI Foundry 平臺。這一舉動標誌着微軟與 xAI 之間的合作關係愈加緊密，儘管兩者在過去曾因與 OpenAI 的關係而存在分歧。Azure AI Foundry 是微軟專爲開發者打造的人工智能平臺，旨在幫助他們構建、定製和管理 AI 應用程序。平臺現已支持多種 AI 模型，包括 OpenAI 的 GPT-4和 Meta 的 Llama3。此次 Grok 的加入無疑爲 Azure 增添了新的功能和

Grok3現已在GitHub Models推出公開預覽版

xAI最新的人工智能模型Grok3已正式在GitHub Models上推出公開預覽版，這一舉措爲開發者和企業利用先進AI能力邁出了重要一步。Grok3作爲一款功能強大的工具，適用於數據提取、代碼編寫、文本摘要等任務，廣泛服務於金融、醫療、法律和科學等行業。由xAI開發的Grok3旨在提供卓越的推理和編碼性能，具備實時更新的特性，擺脫了固定知識截止日期的限制，與GPT-4o和DeepSeek v3等模型形成鮮明對比。其與GitHub Models的集成使開發者能夠無縫探索其功能，實時搜索和GitHub兼容性進一步提升了其在企業

馬斯克旗下 xAI 發佈 Grok 3 API，支持圖像分析及推理功能

馬斯克創立的人工智能公司 xAI 最近開始通過 API 提供其旗艦產品 Grok3模型。這一模型的推出是爲了與 OpenAI 的 GPT-4o 和 Google 的 Gemini 等人工智能產品競爭。Grok3具備圖像分析能力，並能夠回答相關問題，爲馬斯克的社交網絡 X 提供了多項功能支持。值得一提的是，X 在今年3月被 xAI 收購，進一步加強了兩者的結合。xAI 目前通過 API 提供兩種 Grok3模型:Grok3和 Grok3Mini。Grok3的定價爲每百萬個輸入詞元3美元，每百萬個生成詞元15美元，而 Grok3Mini 則定價爲每百萬輸入詞元0.30美元，每百萬輸出詞元0

Grok3與Grok3Mini現已在OpenRouter上線

2025年4月9日，xAI公司最新旗艦人工智能模型Grok3及其輕量版Grok3Mini正式在OpenRouter平臺上線。這一消息標誌着xAI在人工智能領域的又一重要進展，爲開發者和用戶提供了更強大的語言模型選擇。據悉，這兩款模型現已通過OpenRouter的API接口開放使用，並提供標準模式與快速推理模式兩種選項，以滿足不同應用場景的需求。性能與定價概覽Grok3作爲xAI的核心模型，被設計用於處理複雜的多步驟任務，具備卓越的推理能力和廣泛的領域知識，尤其在企業應用場景如數據提取、編碼和文本摘要中表現

OpenAI 員工公開質疑 xAI：Grok 3 基準測試結果存在誤導

相關推薦

馬斯克xAI開源Grok 2.5：Grok 3將於半年後開源

馬斯克與微軟攜手，Grok人工智能模型將登陸Azure平臺

Grok3現已在GitHub Models推出公開預覽版

馬斯克旗下 xAI 發佈 Grok 3 API，支持圖像分析及推理功能

Grok3與Grok3Mini現已在OpenRouter上線

OpenAI 員工公開質疑 xAI：Grok 3 基準測試結果存在誤導

相關推薦

馬斯克xAI開源Grok 2.5：Grok 3將於半年後開源

馬斯克與微軟攜手，Grok人工智能模型將登陸Azure平臺

Grok3現已在GitHub Models推出公開預覽版

​馬斯克旗下 xAI 發佈 Grok 3 API，支持圖像分析及推理功能

Grok3與Grok3Mini現已在OpenRouter上線

馬斯克旗下 xAI 發佈 Grok 3 API，支持圖像分析及推理功能