GPT-5.2超越人類！ARC-AGI-2新紀錄引爆“能力過剩”時代：AI的瓶頸不在模型，而在人

當GPT-5.2在一項嚴苛的通用智能測試中首次超越人類平均水平，人工智能界迎來一個既振奮又警醒的轉折點。OpenAI聯合創始人Greg Brockman近日宣佈，基於GPT-5.2構建的系統Poetiq（GPT-5.2X-High）在最新版ARC-AGI-2基準測試中取得75%的準確率，顯著高於人類平均的60%。這一突破不僅刷新紀錄，更直擊大模型長期被詬病的“性能悖論”——在標準測試中技能爆表，落地應用卻頻頻掉鏈子。

ARC-AGI-2（Abstraction and Reasoning Corpus for Artificial General Intelligence-Version2）由Keras之父François Chollet團隊於2025年推出，其設計哲學極爲純粹:杜絕刷題，只測真推理。該基準不提供訓練集，每道題目都是全新、未見過的抽象任務，要求AI像人類一樣通過觀察少量示例，歸納規則、遷移知識並完成推理。這意味着，任何依賴記憶或統計擬合的模型都將在此失效——它專爲檢驗“真正的通用智能”而生。

此次登頂的並非OpenAI官方模型，而是一家名爲Poetiq的初創公司所構建的“元系統”。Poetiq並未重新訓練GPT-5.2，而是通過精巧的軟件架構，自動調度、組合並引導現有大模型完成複雜推理流程。結果令人震驚:在未改動基礎模型的前提下，系統性能從接近人類水平的60%一舉躍升至75%，每題成本不足8美元。相比之下，主打“深度思考”的Gemini3Deep Think（Preview）僅得46%，且成本更高。

這一15個百分點的飛躍，揭示了一個關鍵趨勢:**AI的下一重天花板，不在算力堆砌，而在系統設計與人機協同**。恰在此時，OpenAI官方在X平臺發佈2026年戰略預測，明確提出“能力過剩”（Capability Overhang）概念——當前大模型“能做的事”遠超人們“實際用它做的事”。模型已具備博士級專業能力，卻仍被當作高級搜索引擎使用;企業採購了AI，卻未重構任何工作流程。

OpenAI由此將重心轉向應用層:2026年將大力投入醫療、商業與日常場景的系統集成，強調“教人用AI”與“讓AI融入流程”。正如社區熱議所言:“真正的挑戰不是AI不夠強，而是組織不願改變。”Poetiq的成功恰恰證明，通過優秀的系統工程，現有模型的潛能可被成倍釋放。

GPT-5.2超越人類，不是終點，而是起點。它宣告了“唯參數論”時代的終結，開啓了以系統智能、流程再造與人機共生爲核心的新競賽。未來的贏家，或許不再是擁有最大模型的公司，而是最懂如何將AI編織進人類生活經緯的那一個。

GPT-5.2超越人類！ARC-AGI-2新紀錄引爆“能力過剩”時代：AI的瓶頸不在模型，而在人

相關推薦

GPT-5.2與Claude4共演“核危機”:前沿模型在戰略模擬中展現複雜推理與欺騙能力

GPT-5.2 強力驅動！OpenAI 深度研究工具大升級，解鎖全屏報告交互新體驗

OpenAI 旗艦模型重大更新：GPT-5.2 系列推理速度提升 40%，價格保持不變

OpenAI 宣佈停用 GPT-4o 等多款模型，用戶轉向新一代技術

告別 GPT-4o：OpenAI 宣佈停用多款經典大模型