斯坦福大學的研究團隊最近發佈了 AgentFlow,這是一個可訓練的智能代理框架,旨在通過模塊化設計和工具集成,提升 AI 的智能決策能力。AgentFlow 由四個模塊組成:規劃器(Planner)、執行器(Executor)、驗證器(Verifier)和生成器(Generator),並通過顯式內存進行協調。在每一步中,規劃器會提出子目標並選擇適當的工具和上下文,執行器則負責調用工具,驗證器則判斷是否繼續,而生成器則在任務完成後給出最終答案。

這一框架的核心創新在於其訓練方法 ——Flow-GRPO(基於流的組精煉策略優化)。這種方法能夠將長時間跨度、稀疏獎勵的優化問題轉化爲可處理的單輪更新。具體來說,Flow-GRPO 會在每一步中廣播一個單一的可驗證的軌跡級信號,將成功的全局目標與局部步驟對齊。同時,它使用每個 token 的加權比率計算,結合 PPO 風格的剪輯和 KL 懲罰,防止策略漂移。
在多個基準測試中,研究團隊對 AgentFlow 進行了評估,主要涵蓋知識密集型搜索、代理推理、數學和科學四個任務類型。經過 Flow-GRPO 優化的7B 模型在10個基準上的表現平均提高了14.9%(搜索任務)、14.0%(代理推理)、14.5%(數學任務)和4.1%(科學任務)。研究團隊表示,該模型在這些任務上超越了現有的強基線,甚至超過了 GPT-4o。
此外,研究還表明,使用 AgentFlow 的工具調用的可靠性有了顯著提升,工具調用錯誤減少了28.4%。這些成果表明,在更大的輪次預算和模型規模下,規劃質量有了明顯改善。
AgentFlow 的公開實現展示了一個模塊化工具包,並附帶了快速啓動腳本,方便用戶進行推理、訓練和基準測試。該項目採用 MIT 許可證,確保了其開源和可訪問性,支持廣泛的研究與開發。
劃重點:
🛠️ AgentFlow 是一個模塊化的 AI 代理框架,包含規劃器、執行器、驗證器和生成器四個模塊。
🚀 Flow-GRPO 訓練方法能夠高效優化代理的決策過程,通過軌跡級獎勵對每個步驟進行指導。
📈 實驗結果顯示,AgentFlow 在多個基準測試中表現優異,平均提高了14.9% 的任務完成率,超越了現有的強基線。
