讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

7月2日，開源強化學習基礎設施項目 AReaL 正式發佈2.0版本。AReaL 旨在打通基礎模型訓練與現代智能體應用之間的鏈路，爲 Agent 應用場景提供高效的強化學習訓練支撐。

此次發佈的 AReaL2.0版本面向已經進入真實業務場景的 Agent，提供了一套讓 Agent 在使用中持續學習的系統基礎設施。通過 AReaL2.0，Agent 在完成真實任務時產生的交互過程，可以被記錄、整理，並接入後續訓練流程，用於持續優化底層模型，從而讓 Agent 在安全可控的前提下越用越強。

如今，Agent 正在進入真實生產環境，寫代碼、查資料、調用工具，在企業系統中完成越來越複雜的任務。但一個問題也隨之出現:Agent 每天都在工作，卻很難從工作中真正成長。

在真實業務中，Agent 會產生大量有價值的經驗:哪些任務完成得好，哪裏調用工具失敗了，用戶爲什麼不滿意，某一步決策是否走錯了方向。但是，這些信息大多隻是以日誌形式被保存下來，很難穩定、安全地轉化爲下一次能力提升。

AReaL2.0要解決的，正是 Agent 上線之後如何繼續成長的問題。開發者不需要重新開發 Agent，只需讓 Agent 原本發給大模型的請求經過 AReaL2.0的統一推理入口，就可以接入在線強化學習流程。

圖說:AReaL2.0在線強化學習（Online RL）架構示意

以 Hermes Agent 爲例，Hermes 仍然照常接收任務、規劃步驟和調用模型，AReaL2.0則在後臺記錄它完成任務時的關鍵交互過程，並結合任務結束後的反饋或獎勵信號，把這些真實軌跡用於後續訓練。開發者也可以把 Hermes 替換成自己的 Agent 和任務環境，用同樣的方式搭建 Agent 在線強化學習流程。

這意味着，Agent 的能力提升不再只依賴人工構造數據、離線訓練和重新部署。真實任務中的多輪對話、工具調用、執行結果和反饋信號，都有機會成爲模型繼續學習的材料。

這一點在企業場景中尤其重要。在企業工作流中的 Agent 面對的是真實、複雜、不斷變化的任務:代碼庫會更新，業務流程會調整，用戶需求會變化，工具和系統也可能發生改變。如果 Agent 的能力一旦上線就基本固定，它就很難長期適應真實環境。AReaL2.0希望補上的，正是從“會使用工具”到“能從使用中學習”之間缺失的一環。

同時，真實業務中的持續學習也不能只是簡單地“收集數據再訓練”。Agent 可能接觸代碼、客戶信息、企業知識庫和內部系統，因此訓練鏈路必須考慮權限控制、數據脫敏、隔離和審計等要求。AReaL2.0在系統設計中引入了面向 Agent 軌跡的數據代理機制，讓真實任務數據進入訓練流程時，可以在更安全、可控的前提下被管理和使用。

AReaL 團隊在技術報告中指出，自演進 Agent 的關鍵瓶頸，不只是模型本身有多強，也不只是強化學習算法是否先進，而是缺少一套能夠服務真實 Agent 的在線強化學習基礎設施。AReaL2.0正是面向下一代智能體應用進行的架構升級:把 Agent 服務、真實任務軌跡、數據治理和在線強化學習訓練連接起來，讓 Agent 在部署之後繼續學習具備了可落地的工程基礎。

從更長遠的角度看，AReaL2.0指向的是下一代智能體應用的演進範式:Agent 不再只是一次性訓練和部署的工具，而是在真實環境中不斷獲得反饋，把成功和失敗都轉化爲經驗，並在安全邊界內不斷提升自身能力。

AReaL 項目由螞蟻集團、清華大學和香港科技大學等團隊於2024年發起。2026年5月，AReaL 正式從螞蟻 InclusionAI 孵化成爲獨立開源社區，並加入 PyTorch Foundation Ecosystem 項目，進一步融入主流強化學習基礎設施生態。

隨着社區獨立發展，AReaL 也在持續獲得產業和開源生態夥伴的參與和支持，包括華爲雲團隊、MindLab 等。未來，AReaL 將繼續圍繞在線強化學習、自動化評估和多模態智能體訓練等方向迭代，與社區共同推進自演進智能體生態發展。

目前，AReaL2.0技術報告和代碼已開源。

· GitHub 倉庫:https://github.com/areal-project/AReaL

· 技術報告:https://arxiv.org/abs/2607.01120

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

相關推薦

前 DeepMind 團隊量化 AI 公司 EquiLibre 完成 A 輪融資，估值達5億美元

微信支付正式發佈“AI專屬卡”:支持Agent閉環消費，主賬戶完全隔離

騰訊會議多項AI功能升級，元寶紀要月使用時長增長近5倍

釦子 3.0 正式上線，支持多人多 Agent 協同作業

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化