一項由蘋果研究人員主導的新研究,對當前被寄予厚望的大型推理模型(LRM)潑了一盆冷水。

研究發現,在解決複雜任務時,像 Claude3.7Thinking 和 Deepseek-R1等專爲“模擬思維過程”設計的推理模型,不僅未能展現出優勢,反而出現“思考不足”、性能崩潰等嚴重問題。

QQ20250609-091807.png

這項研究測試了四種經典邏輯謎題:漢諾塔、跳棋、渡河與積木世界。這些謎題允許精確控制任務複雜度,是衡量語言模型推理能力的理想場景。結果顯示,標準 LLM 在簡單任務中準確率更高且效率更高,而當複雜度升高,推理模型雖表現稍有提升,但最終同樣在高複雜度下全面崩潰。

更令人意外的是,這些模型在面對最複雜任務時,不僅準確率下降爲零,反而使用了更少的推理標記(tokens)。換句話說,它們“思考”的意願和能力反而降低了。

QQ20250609-091816.png

研究團隊繪製了模型在不同複雜度下的推理軌跡,揭示了兩種典型失敗模式:過度思考:在簡單問題中,模型找到答案後仍持續生成錯誤備選方案;思考崩潰:在高複雜度問題中,推理過程戛然而止,連嘗試路徑都無法生成。

雖然推理模型藉助“思路鏈”“自我反思”等機制被認爲是通往通用人工智能(AGI)的一步,但蘋果的研究指出:這些機制在擴展性上存在根本缺陷,目前的推理模型無法制定出具備通用性的策略,其“思考”更多是統計上的生成,而非真正的邏輯演繹。

QQ20250609-091824.png

研究還發現,不同謎題的表現也與訓練數據相關。例如,出現在訓練數據中較多的“漢諾塔”任務,其準確率普遍高於複雜度相似但數據稀少的“渡河”任務。這凸顯了當前模型對訓練分佈的高度依賴性。

蘋果研究人員最終指出:“當前推理模型的‘思維能力’存在與問題複雜度相對的不對稱擴展性,在結構上無法支撐高階任務的解決。”他們建議,對推理模型的核心設計原則應進行重新思考。

這一發現對行業影響深遠。隨着 AI 模型規模擴展收益趨於飽和,推理能力被視爲通向下一階段 AI 革命的關鍵,包括 OpenAI 在內的多家頭部企業均在此方向押下重注。如今,這項研究提醒人們:在走向真正“理解”和“推理”的路上,AI 仍面臨根本性的技術挑戰。