谷歌DeepMind研究團隊最近取得重大突破,開發出名爲SCoRe(Self-Correction through Reinforcement Learning,通過強化學習進行自我糾正)的創新技術。這一技術旨在解決大型語言模型(LLM)難以自我糾正的長期挑戰,無需依賴多個模型或外部檢查即可識別和修復錯誤。

SCoRe技術的核心在於其兩階段方法。第一階段優化模型初始化,使其能在第二次嘗試時生成修正,同時保持初始響應與基礎模型的相似性。第二階段採用多階段強化學習,教導模型如何改進第一和第二個答案。這種方法的獨特之處在於它僅使用自生成的訓練數據,模型通過解決問題並嘗試改進解決方案來創建自己的示例。

QQ20240926-150104.png

在實際測試中,SCoRe展現出顯著的性能提升。使用Google的Gemini1.0Pro和1.5Flash模型進行的測試顯示,在MATH基準測試的數學推理任務中,自我糾正能力提高了15.6個百分點。在HumanEval的代碼生成任務中,性能提升了9.1個百分點。這些結果表明,SCoRe在提高AI模型自我修正能力方面取得了實質性進展。

研究人員強調,SCoRe是首個實現有意義的積極內在自我糾正的方法,使模型能夠在沒有外部反饋的情況下改進答案。然而,當前版本的SCoRe僅進行一輪自我糾正訓練,未來的研究可能會探索多個糾正步驟的可能性。

DeepMind團隊的這項研究揭示了一個重要洞見:教授自我糾正等元策略需要超越標準的語言模型訓練方法。多階段強化學習爲AI領域開闢了新的可能性,有望推動更智能、更可靠的AI系統的發展。

這一突破性技術不僅展示了AI自我完善的潛力,也爲解決大型語言模型的可靠性和準確性問題提供了新的思路,可能對未來AI應用的發展產生深遠影響。