近期,谷歌 DeepMind 團隊與約翰・開普勒林茨大學 LIT AI 實驗室合作,開展了一項關於人工智能語言模型的新研究。他們採用了強化學習微調(RLFT)技術,旨在提升語言模型的決策能力。這項研究的重點在於,通過思維鏈的強化訓練,解決了模型在決策過程中存在的一些關鍵問題。
隨着大數據的應用,現有的語言模型已經展現出處理文本的超越能力,甚至能夠在交互環境中做出基於知識的決策。然而,這些模型在實際決策時卻常常出現 “紙上談兵” 的問題,雖然能推導出正確的策略,卻無法有效地執行。此外,它們還傾向於選擇短期內能夠獲得更高回報的選項,同時較小的模型常常因爲頻率偏見而重複常見的動作。
傳統的強化學習方法,比如 UCB 算法,雖然可以在一定程度上平衡探索與利用,但仍然無法完全解決模型推理與行動之間的脫節問題。爲此,DeepMind 團隊創新性地引入了強化學習微調技術,利用模型自生成的思維鏈作爲訓練信號。系統將評估每個推理步驟所對應的行動獎勵,促使模型優先選擇邏輯自洽且有效的行動方案。
在實際實施過程中,模型根據輸入指令及歷史行動與獎勵生成包含推理過程和動作的序列。通過蒙特卡洛基線評估和廣義優勢估計進行優化,若採取無效動作,則會觸發懲罰機制。同時,獎勵塑造技術的引入不僅保證了輸出的規範性,還保留了探索的空間。
在實驗中,研究團隊測試了多臂老虎機模型。在10臂的測試中,2B 參數模型的動作覆蓋率提升了12個百分點。在20臂的測試中,雖然改善幅度較小,但頻次偏見率從70% 降至35%,顯示出研究的有效性。井字棋的實驗結果顯示,模型與隨機對手對戰的勝率提升了5倍,對陣最優蒙特卡洛樹搜索代理時的平均回報從 -0.95歸零。此外,27B 大模型生成正確推理的概率達到了87%,而未微調時僅有21% 能夠執行最優動作。這一系列的數據充分證明了強化學習微調在縮小推理與行動之間差距方面的有效性。
劃重點:
📊 研究採用強化學習微調(RLFT)技術提升 AI 語言模型的決策能力。
🧩 通過自生成思維鏈進行訓練,模型的邏輯推理和行動選擇得到有效提升。
🏆 實驗顯示,模型在多臂老虎機及井字棋中均顯著改善了表現,縮小了推理與執行之間的差距。