正文

新測試挑戰 AI 智能水平：ARC-AGI-2 讓頂尖模型碰壁

發布於AI新閒資訊

時間 :Mar 25, 2025

閱讀 :2分鐘

近日，Arc Prize 基金會發布了一項全新的測試 ——ARC-AGI-2，旨在測量人工智能（AI）模型的通用智能水平。該基金會由著名 AI 研究者 François Chollet 共同創立。根據基金會的博客，這項新測試對大多數領先的 AI 模型提出了嚴峻挑戰。

根據 Arc Prize 排行榜，諸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2測試中的得分僅在1% 到1.3% 之間，而更爲強大的非推理模型，例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大約在1%。ARC-AGI 測試包含了一系列拼圖問題，要求 AI 從不同顏色的方塊中識別出視覺模式，並生成正確的 “答案” 網格。這些問題旨在迫使 AI 適應未曾見過的新問題。

爲了建立人類基準，Arc Prize 基金會邀請了超過400人蔘與 ARC-AGI-2測試。這些人羣的平均得分爲60%，遠遠超過任何 AI 模型的得分。Chollet 在社交媒體上表示，ARC-AGI-2比前一個版本 ARC-AGI-1更能有效地測量 AI 模型的實際智能。新的測試旨在評估 AI 系統是否能高效地獲取超出其訓練數據的新技能。

與 ARC-AGI-1相比，ARC-AGI-2的設計改進了多個方面，尤其是引入了 “效率” 這一新指標，並要求模型在沒有依賴記憶的情況下即時解釋模式。正如 Arc Prize 基金會的共同創始人 Greg Kamradt 所言，智力不僅僅體現在解決問題的能力上，效率同樣是一個關鍵因素。

值得注意的是，OpenAI 的 o3模型在 ARC-AGI-1中以75.7% 的得分無人能敵，直到2024年才被超越。然而，o3在 ARC-AGI-2中的得分卻僅爲4%，在每個任務上的計算成本高達200美元。ARC-AGI-2的發佈正值技術界對新的 AI 進展衡量標準的呼聲日益高漲。Hugging Face 的聯合創始人 Thomas Wolf 曾表示，AI 行業缺乏足夠的測試來衡量被稱爲人工通用智能的關鍵特徵，包括創造力。

與此同時，Arc Prize 基金會還宣佈了2025年的 Arc Prize 競賽，挑戰開發者在 ARC-AGI-2測試中達到85% 的準確率，而每個任務的花費僅爲0.42美元。

劃重點:
🌟 ARC-AGI-2是 Arc Prize 基金會新推出的測試，旨在衡量 AI 的通用智能水平。
📉 目前頂尖 AI 模型在該測試中的得分普遍較低，遠不及人類的平均水平。
🏆 Arc Prize 基金會還將舉辦挑戰賽，鼓勵開發者以低成本提高 AI 在新測試中的表現。

老用戶心碎！OpenAI官宣退役o3 與GPT-4. 5 大模型

OpenAI宣佈將從ChatGPT平臺退役兩款經典大模型：文科天才GPT-4.5將於6月27日下線，硬核推理模型o3於8月26日告別。這一調整引發業界震動，也讓付費老用戶感到不捨。

Jun 1, 2026

202.4k

GPT-5.2超越人類！ARC-AGI-2新紀錄引爆“能力過剩”時代：AI的瓶頸不在模型，而在人

GPT-5.2在ARC-AGI-2測試中以75%準確率超越人類平均水平（60%），標誌AI通用智能取得關鍵突破，但同時也凸顯了模型在測試與落地應用間的性能差距問題。

Jan 12, 2026

660.5k

GPT-5.2 性能首超人類基準：OpenAI 預警“大模型能力過剩”時代開啓

OpenAI宣佈GPT-5.2在ARC-AGI-2基準測試中超越人類基線，該測試評估AI的抽象推理和舉一反三能力，而非模式記憶。這一突破標誌着AI在處理新任務時已跨越“及格線”，向專家級智能邁進。

Jan 12, 2026

183.6k

OpenAI 宣佈：2025 年 GPT-4.5 API 服務將停用，開發者面臨轉型挑戰！

近日，OpenAI 正式宣佈，將於 2025 年 7 月 14 日終止 GPT-4.5 預覽版 API 服務。這一決定將對使用該服務的第三方開發者產生重大影響，儘管個人版的 ChatGPT 用戶將不受影響。開發者們需在短短三個月內將自己的應用遷移到其他模型，以確保業務的持續運行。許多業內人士和開發者對這一消息表示困惑與失落，認爲這一決策可能與運算成本和定價策略有關。隨着 AI 技術的不斷進步，OpenAI 需要調整其業務模式，以保持競爭力並滿足市場需求。GPT-4.5 的關閉意味着，開發者需要尋找新的解決方案，

Jun 19, 2025

204.2k

OpenAI 宣佈 GPT-4.5 將在 API 中下線，開發者感到困惑與失落

近日，OpenAI 向開發者發送了一封電子郵件，通知他們將在2025年7月14日從官方 API 中移除 GPT-4.5預覽版。這一消息迅速在 AI 和機器學習社區引發熱議。雖然 OpenAI 的發言人表示，GPT-4.5仍將可供個人 ChatGPT 用戶使用，但對於依賴於這一強大模型的第三方開發者來說，這無疑是一項重大的打擊。GPT-4.5預覽版被許多開發者視爲日常工作中的重要工具，因其出色的表現和可靠性而備受推崇。社交媒體平臺 X 上的用戶們對此反應不一，有人感到失望，也有人對這一決定表示困惑。有開發者甚至直接質

Jun 18, 2025

240.6k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

​新測試挑戰 AI 智能水平：ARC-AGI-2 讓頂尖模型碰壁

相關推薦