AI評測新標杆！GPT-5等前沿模型慘遭零分，博士級推理能力究竟幾何？

近期，一個新的 AI 評測基準 FormulaOne 引發了廣泛關注。這個基準由專注於超智能與高級 AI 系統的研究機構 AAI 推出，挑戰了一衆頂尖的 AI 模型，如 GPT-5、Grok4和 o3Pro 等，結果卻讓人瞠目結舌:這些模型在測試中全都得了零分!

FormulaOne 基準包含了220個新穎的圖結構動態規劃問題，題目難度分爲三類，從中等難度到科研級別，其中包括拓撲、幾何和組合問題等複雜領域。儘管問題的表述看似簡單，但實際上，解決這些問題所需的推理與邏輯推演難度極高，幾乎可以稱得上是博士級的挑戰。

這一系列問題依賴於 Courcelle 提出的一個算法元定理，該定理強調，對於每個類似樹的圖，任何可用邏輯定義的問題都可以通過動態規劃算法來解決。這就需要使用一種被稱爲樹分解的結構，將圖的頂點組織成一系列重疊的集合，並以樹狀結構排列，隨後通過動態規劃逐步解決。

在淺層難度的問題上，這些前沿 AI 模型的表現尚可，達到了50% 到70% 的成功率，說明它們對這些類型的問題有一定的認識。然而，在深層和更深層難度的題目中，情況就不容樂觀了。深層難度的測試中，頂尖模型的成功率大幅下降，Grok4、Gemini-Pro 等模型最多隻能解出1% 的題目，而 GPT-5Pro 的表現稍好，僅解出4個問題。最深層的難度測試中，所有模型的成功率則是零，集體崩潰。

這項評測結果不僅引發了科研界的廣泛討論，還讓人們對 AI 模型的真實能力產生了質疑，許多人甚至建議讓人類博士生也來參與評估。隨着 AI 技術的快速發展，我們不得不思考:這些模型究竟距離真正的 “博士級” 推理能力還有多遠?

模型地址：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

劃重點:

✅ GPT-5等 AI 模型在新評測基準 FormulaOne 中全都得了零分，令人震驚!

✅ FormulaOne 包含220個高難度動態規劃問題，考驗 AI 模型的推理能力。

✅ 大部分模型在淺層問題上表現尚可，但在深層和更深層問題上均遭遇失敗，揭示了 AI 的侷限性。

AI評測新標杆！GPT-5等前沿模型慘遭零分，博士級推理能力究竟幾何？

相關推薦

GPT- 5 引發鏈式反應：OpenAI爬蟲活動瘋狂激增三倍

OpenAI 官宣 100 美元專業版訂閱套餐，瞄準高強度生產力

OpenAI 告別 GPT-4o:2026年2月13日正式下架舊模型

ChatGPT 每週處理200萬保險難題，醫療查詢佔比超5%

ChatGPT 每週處理200萬保險難題，醫療查詢佔比超5%