近日,Arc Prize 基金會發布了一項全新的測試 ——ARC-AGI-2,旨在測量人工智能(AI)模型的通用智能水平。該基金會由著名 AI 研究者 François Chollet 共同創立。根據基金會的博客,這項新測試對大多數領先的 AI 模型提出了嚴峻挑戰。
根據 Arc Prize 排行榜,諸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2測試中的得分僅在1% 到1.3% 之間,而更爲強大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大約在1%。ARC-AGI 測試包含了一系列拼圖問題,要求 AI 從不同顏色的方塊中識別出視覺模式,並生成正確的 “答案” 網格。這些問題旨在迫使 AI 適應未曾見過的新問題。
爲了建立人類基準,Arc Prize 基金會邀請了超過400人蔘與 ARC-AGI-2測試。這些人羣的平均得分爲60%,遠遠超過任何 AI 模型的得分。Chollet 在社交媒體上表示,ARC-AGI-2比前一個版本 ARC-AGI-1更能有效地測量 AI 模型的實際智能。新的測試旨在評估 AI 系統是否能高效地獲取超出其訓練數據的新技能。
與 ARC-AGI-1相比,ARC-AGI-2的設計改進了多個方面,尤其是引入了 “效率” 這一新指標,並要求模型在沒有依賴記憶的情況下即時解釋模式。正如 Arc Prize 基金會的共同創始人 Greg Kamradt 所言,智力不僅僅體現在解決問題的能力上,效率同樣是一個關鍵因素。
值得注意的是,OpenAI 的 o3模型在 ARC-AGI-1中以75.7% 的得分無人能敵,直到2024年才被超越。然而,o3在 ARC-AGI-2中的得分卻僅爲4%,在每個任務上的計算成本高達200美元。ARC-AGI-2的發佈正值技術界對新的 AI 進展衡量標準的呼聲日益高漲。Hugging Face 的聯合創始人 Thomas Wolf 曾表示,AI 行業缺乏足夠的測試來衡量被稱爲人工通用智能的關鍵特徵,包括創造力。
與此同時,Arc Prize 基金會還宣佈了2025年的 Arc Prize 競賽,挑戰開發者在 ARC-AGI-2測試中達到85% 的準確率,而每個任務的花費僅爲0.42美元。
劃重點:
🌟 ARC-AGI-2是 Arc Prize 基金會新推出的測試,旨在衡量 AI 的通用智能水平。
📉 目前頂尖 AI 模型在該測試中的得分普遍較低,遠不及人類的平均水平。
🏆 Arc Prize 基金會還將舉辦挑戰賽,鼓勵開發者以低成本提高 AI 在新測試中的表現。