多模態大模型(MLLM)在解決複雜問題方面逐漸展現出強大的潛力。然而,這些模型在處理複雜推理時常常顯得 “耿直”,缺乏反思能力,導致在面對需要多次嘗試的挑戰時難以回頭。爲了解決這一問題,上海交通大學與上海人工智能實驗室的研究團隊推出了一個名爲 MM-HELIX 的創新項目,旨在讓 AI 學習像人類一樣進行長鏈反思性推理。

MM-HELIX 不僅僅是一個項目,更是一個全面的生態系統。團隊首先構建了一個被稱爲 “終極考場” 的 MM-HELIX 基準測試,以評估多模態大模型的反思推理能力。這個基準測試涉及42種高度複雜的任務,涵蓋了算法、圖論、謎題和策略遊戲等領域。測試結果顯示,即便是當前最頂尖的模型,準確率依然低迷,特別是在多模態輸入下,表現更爲慘淡。這一結果無疑強調了提升 AI 反思能力的重要性。

image.png

爲幫助多模態大模型更好地學習反思,研究團隊還打造了一個名爲 MM-HELIX-100K 的數據集,包含10萬個高質量樣本,旨在通過 “步驟啓發式響應生成”(SERG)流程來教會模型如何進行反思和覆盤。此過程大幅縮短了解題時間,並有效減少了不必要的冗餘思考。

image.png

此外,團隊還提出了一種自適應混合策略優化算法(AHPO),作爲智能導師,幫助模型在學習過程中逐漸從依賴專家指導轉向自主探索。這種動態教學機制讓模型在不斷提高準確率的同時,也能夠培養獨立思考的能力。

經過這一系列創新,搭載 MM-HELIX 的 Qwen2.5-VL-7B 模型在基準測試中準確率提升了18.6%。這一進步不僅突破了原有模型的瓶頸,還展現出反思能力的強大泛化性,證明了該項目對 AI 發展的重大意義。