OpenAI 發佈的最新模型 o3在 ARC-AGI 基準測試中取得了驚人的成績,標準計算條件下得分高達75.7%,而高計算版本更是達到了87.5%。這一成就令 AI 研究界感到意外,但仍無法證明人工智能通用性(AGI)已被破解。
ARC-AGI 基準測試基於抽象推理庫(Abstract Reasoning Corpus),該測試旨在評估 AI 系統適應新任務和展示流動智力的能力。ARC 包含一系列視覺謎題,需要理解基本概念如物體、邊界和空間關係。人類能夠輕鬆解決這些謎題,而目前的 AI 系統在這方面卻面臨很大挑戰。ARC 被認爲是 AI 評估中最具挑戰性的標準之一。

o3的表現顯著優於以往的模型。o1-preview 和 o1模型在 ARC-AGI 上的最高得分爲32%。在此之前,研究人員 Jeremy Berman 採用混合方法將 Claude3.5Sonnet 與遺傳算法結合,取得了53% 的分數,而 o3的出現則被視爲 AI 能力的飛躍。
ARC 的創建者 François Chollet 稱讚 o3在 AI 能力上的質變,認爲其在新任務適應能力上達到了一種前所未有的水平。
儘管 o3的表現出色,但其計算成本也相當高。在低計算配置下,解決每個難題的費用在17到20美元之間,需消耗3300萬個代幣;而在高計算配置下,計算成本則增加至172倍,使用數十億個令牌。然而,隨着推理成本的逐步降低,這些開銷可能會變得更加合理。

關於 o3如何達到這一突破,目前尚無詳細的信息。有科學家猜測,o3可能使用了一種程序合成方法,結合鏈式思維和搜索機制。而另一些科學家則認爲,o3可能只是通過進一步擴展強化學習而來。

儘管 o3在 ARC-AGI 上取得了重大進展,但 Chollet 強調,ARC-AGI 並不是 AGI 的測試,o3仍未達到 AGI 的標準。它在某些簡單任務上依然表現不佳,顯示出與人類智能之間的根本差異。此外,o3在推理過程中仍然依賴外部驗證,這與 AGI 的獨立學習能力相去甚遠。
Chollet 團隊正在開發新的挑戰性基準,以檢驗 o3的能力,預計會將其得分降低到30% 以下。他指出,真正的 AGI 將意味着創造出對普通人來說簡單但對 AI 來說困難的任務幾乎變得不可能。
劃重點:
🌟 o3在 ARC-AGI 基準測試中獲得75.7% 的高分,表現超越以往模型。
💰 o3解決每個謎題的成本高達17到20美元,計算量巨大。
🚫 儘管 o3表現優秀,但專家們強調其尚未達到 AGI 的標準。
