近年來,隨着大語言模型(LLM)的廣泛應用,這些模型在複雜推理和問題解決任務中發揮了重要作用。其中,受 OpenAI 的 o1架構啓發的 o1-like 模型以其獨特的人類思維、逐步推理的能力脫穎而出。然而,這些模型也存在一個顯著的低效問題,即 “過度思考”。
所謂過度思考,是指模型在處理一些簡單問題時,往往會消耗不必要的計算資源,甚至在推理過程中重複無謂的步驟。例如,在解決 “2+3” 這樣簡單的算術題時,o1-like 模型可能會生成過於詳細的推理,使用的 token 數量遠超傳統的 LLM,這不僅增加了計算成本,也限制了它們在資源受限場景下的實際應用。

針對這一問題,騰訊 AI 實驗室和上海交通大學共同發佈了一項新研究,深入探討 o1-like 模型中的過度思考現象,並集中優化測試時的計算資源。研究通過在 GSM8K、MATH500和 AIME 等數據集上進行實驗,揭示了這些模型在面對簡單問題時傾向於生成冗餘解答的特徵。爲此,研究人員引入了兩個評估指標 —— 結果效率和過程效率,以全面評估模型在推理時的資源利用情況,這兩個指標分別考量答案的正確性和中間推理步驟的相關性。
爲了解決過度思考問題,研究者提出了一種自我訓練的方法,將效率指標直接整合到模型訓練過程中。這一方法強調了早期準確響應的重要性,從而減少冗餘推理,同時保留了模型的反思能力。研究中,第一正確解(FCS)和 FCS + 反思策略成爲核心方法。以 QwQ-32B-Preview 模型爲例,在 MATH500數據集上的 token 使用量減少了48.6%。除了計算節省外,這些方法還提高了推理的可解釋性,並使其能夠在計算資源有限的場景中部署。
實驗結果顯示,這些以效率爲中心的策略顯著降低了 token 使用量,同時保持或提高了簡單任務的準確性。例如,在 MATH500數據集中,FCS + 反思策略使結果效率從52.3% 提升至75.8%。更高的過程效率也表明推理步驟中的冗餘性減少。在更具挑戰性的數據集如 GPQA 和 AIME 中,優化後的模型依然保持了強大的性能,同時減少了計算需求。研究結果表明,針對性訓練策略能夠有效解決低效問題,同時在多種任務中保留模型的能力。
騰訊 AI 實驗室與上海交通大學的這項研究強調了 o1-like 模型中的過度思考問題,並提出了高效利用資源的切實解決方案。這些新指標和訓練方法的提出,對於提升先進推理模型的可擴展性和應用性具有重要意義。在人工智能系統不斷演進的過程中,確保計算資源的高效使用將成爲一個關鍵關注點,從而使這些技術能夠得到更廣泛的應用和可持續的使用。
項目入口:https://arxiv.org/abs/2412.21187
劃重點:
🔍 研究揭示 o1-like 模型在簡單問題上存在 “過度思考” 現象,導致不必要的計算資源浪費。
⚙️ 通過引入結果效率和過程效率指標,研究者優化模型的計算資源利用,提升推理的有效性。
📉 實驗結果顯示優化策略顯著減少 token 使用,同時保持或提高模型在簡單任務上的準確性。
