隨着人工智能技術的不斷髮展,如何開發能夠獨立完成複雜任務的大規模語言模型(LLM)代理,已成爲研究的熱點。
爲了讓這些代理像人類一樣,通過探索和與環境互動來學習,研究者們需要一個強大而統一的強化學習(RL)框架。然而,目前的研究中,尚缺乏一種有效的訓練方法,能夠在多樣化的真實環境中,從零開始訓練代理,而不依賴於監督微調(SFT)。

爲了解決這一問題,字節跳動Seed研究團隊推出了名爲 AgentGym-RL 的新框架,專注於通過強化學習訓練 LLM 代理,使其能夠進行多輪互動決策。該框架具有模塊化和解耦的架構,提供了極高的靈活性和擴展性。AgentGym-RL 覆蓋了多種真實場景,能夠支持主流的強化學習算法,幫助代理全面提升其決策能力。
爲了進一步優化訓練效果,研究團隊還提出了一種名爲 ScalingInter-RL 的訓練方法。該方法通過階段性調整交互次數,幫助代理在早期專注於掌握基本技能,隨後逐漸增加交互次數,以鼓勵更多樣化的問題解決策略。這種探索與利用的平衡設計,有助於代理在面對複雜任務時保持穩定的學習和決策能力。
在實驗過程中,研究者們採用了 Qwen2.5-3B 和 Qwen2.5-7B 作爲基礎模型,評估了 AgentGym-RL 和 ScalingInter-RL 在五個不同場景中的表現。結果顯示,使用 AgentGym-RL 的代理在27個任務中,表現優於多個商業模型。研究團隊計劃將整個 AgentGym-RL 框架,包括代碼和數據集,開源,以支持更多研究者開發智能代理。
AgentGym-RL 框架涉及的多種場景包括網絡導航、深度搜索、數字遊戲、體感任務和科學實驗等,代理在這些場景中需具備強大的決策能力和適應能力,才能完成複雜的任務。
項目:https://agentgym-rl.github.io/
劃重點:
🌐 AgentGym-RL 框架提供了一種新方法,旨在通過強化學習訓練大規模語言模型代理,提升其複雜任務的決策能力。
🔄 ScalingInter-RL 訓練方法通過階段性調整交互,幫助代理在訓練中實現有效的探索與利用平衡。
🏆 實驗結果顯示,AgentGym-RL 框架顯著提升了代理的表現,超越了多個商業模型,具備了與頂尖專有大模型相當的能力。
