近期,一個新的 AI 評測基準 FormulaOne 引發了廣泛關注。這個基準由專注於超智能與高級 AI 系統的研究機構 AAI 推出,挑戰了一衆頂尖的 AI 模型,如 GPT-5、Grok4和 o3Pro 等,結果卻讓人瞠目結舌:這些模型在測試中全都得了零分!

FormulaOne 基準包含了220個新穎的圖結構動態規劃問題,題目難度分爲三類,從中等難度到科研級別,其中包括拓撲、幾何和組合問題等複雜領域。儘管問題的表述看似簡單,但實際上,解決這些問題所需的推理與邏輯推演難度極高,幾乎可以稱得上是博士級的挑戰。

image.png

這一系列問題依賴於 Courcelle 提出的一個算法元定理,該定理強調,對於每個類似樹的圖,任何可用邏輯定義的問題都可以通過動態規劃算法來解決。這就需要使用一種被稱爲樹分解的結構,將圖的頂點組織成一系列重疊的集合,並以樹狀結構排列,隨後通過動態規劃逐步解決。

image.png

在淺層難度的問題上,這些前沿 AI 模型的表現尚可,達到了50% 到70% 的成功率,說明它們對這些類型的問題有一定的認識。然而,在深層和更深層難度的題目中,情況就不容樂觀了。深層難度的測試中,頂尖模型的成功率大幅下降,Grok4、Gemini-Pro 等模型最多隻能解出1% 的題目,而 GPT-5Pro 的表現稍好,僅解出4個問題。最深層的難度測試中,所有模型的成功率則是零,集體崩潰。

這項評測結果不僅引發了科研界的廣泛討論,還讓人們對 AI 模型的真實能力產生了質疑,許多人甚至建議讓人類博士生也來參與評估。隨着 AI 技術的快速發展,我們不得不思考:這些模型究竟距離真正的 “博士級” 推理能力還有多遠?

模型地址:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

劃重點:

✅ GPT-5等 AI 模型在新評測基準 FormulaOne 中全都得了零分,令人震驚!  

✅ FormulaOne 包含220個高難度動態規劃問題,考驗 AI 模型的推理能力。  

✅ 大部分模型在淺層問題上表現尚可,但在深層和更深層問題上均遭遇失敗,揭示了 AI 的侷限性。