當GPT-5.2在一項嚴苛的通用智能測試中首次超越人類平均水平,人工智能界迎來一個既振奮又警醒的轉折點。OpenAI聯合創始人Greg Brockman近日宣佈,基於GPT-5.2構建的系統Poetiq(GPT-5.2X-High)在最新版ARC-AGI-2基準測試中取得75%的準確率,顯著高於人類平均的60%。這一突破不僅刷新紀錄,更直擊大模型長期被詬病的“性能悖論”——在標準測試中技能爆表,落地應用卻頻頻掉鏈子。

image.png

ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence-Version2)由Keras之父François Chollet團隊於2025年推出,其設計哲學極爲純粹:杜絕刷題,只測真推理。該基準不提供訓練集,每道題目都是全新、未見過的抽象任務,要求AI像人類一樣通過觀察少量示例,歸納規則、遷移知識並完成推理。這意味着,任何依賴記憶或統計擬合的模型都將在此失效——它專爲檢驗“真正的通用智能”而生。

此次登頂的並非OpenAI官方模型,而是一家名爲Poetiq的初創公司所構建的“元系統”。Poetiq並未重新訓練GPT-5.2,而是通過精巧的軟件架構,自動調度、組合並引導現有大模型完成複雜推理流程。結果令人震驚:在未改動基礎模型的前提下,系統性能從接近人類水平的60%一舉躍升至75%,每題成本不足8美元。相比之下,主打“深度思考”的Gemini3Deep Think(Preview)僅得46%,且成本更高。

image.png

這一15個百分點的飛躍,揭示了一個關鍵趨勢:**AI的下一重天花板,不在算力堆砌,而在系統設計與人機協同**。恰在此時,OpenAI官方在X平臺發佈2026年戰略預測,明確提出“能力過剩”(Capability Overhang)概念——當前大模型“能做的事”遠超人們“實際用它做的事”。模型已具備博士級專業能力,卻仍被當作高級搜索引擎使用;企業採購了AI,卻未重構任何工作流程。

OpenAI由此將重心轉向應用層:2026年將大力投入醫療、商業與日常場景的系統集成,強調“教人用AI”與“讓AI融入流程”。正如社區熱議所言:“真正的挑戰不是AI不夠強,而是組織不願改變。”Poetiq的成功恰恰證明,通過優秀的系統工程,現有模型的潛能可被成倍釋放。

GPT-5.2超越人類,不是終點,而是起點。它宣告了“唯參數論”時代的終結,開啓了以系統智能、流程再造與人機共生爲核心的新競賽。未來的贏家,或許不再是擁有最大模型的公司,而是最懂如何將AI編織進人類生活經緯的那一個。