7月2日,開源強化學習基礎設施項目 AReaL 正式發佈2.0版本。AReaL 旨在打通基礎模型訓練與現代智能體應用之間的鏈路,爲 Agent 應用場景提供高效的強化學習訓練支撐。

此次發佈的 AReaL2.0版本面向已經進入真實業務場景的 Agent,提供了一套讓 Agent 在使用中持續學習的系統基礎設施。通過 AReaL2.0,Agent 在完成真實任務時產生的交互過程,可以被記錄、整理,並接入後續訓練流程,用於持續優化底層模型,從而讓 Agent 在安全可控的前提下越用越強。

如今,Agent 正在進入真實生產環境,寫代碼、查資料、調用工具,在企業系統中完成越來越複雜的任務。但一個問題也隨之出現:Agent 每天都在工作,卻很難從工作中真正成長。

在真實業務中,Agent 會產生大量有價值的經驗:哪些任務完成得好,哪裏調用工具失敗了,用戶爲什麼不滿意,某一步決策是否走錯了方向。但是,這些信息大多隻是以日誌形式被保存下來,很難穩定、安全地轉化爲下一次能力提升。

AReaL2.0要解決的,正是 Agent 上線之後如何繼續成長的問題。開發者不需要重新開發 Agent,只需讓 Agent 原本發給大模型的請求經過 AReaL2.0的統一推理入口,就可以接入在線強化學習流程。

QQ20260702-160132.png

圖說:AReaL2.0在線強化學習(Online RL)架構示意

以 Hermes Agent 爲例,Hermes 仍然照常接收任務、規劃步驟和調用模型,AReaL2.0則在後臺記錄它完成任務時的關鍵交互過程,並結合任務結束後的反饋或獎勵信號,把這些真實軌跡用於後續訓練。開發者也可以把 Hermes 替換成自己的 Agent 和任務環境,用同樣的方式搭建 Agent 在線強化學習流程。

這意味着,Agent 的能力提升不再只依賴人工構造數據、離線訓練和重新部署。真實任務中的多輪對話、工具調用、執行結果和反饋信號,都有機會成爲模型繼續學習的材料。

這一點在企業場景中尤其重要。在企業工作流中的 Agent 面對的是真實、複雜、不斷變化的任務:代碼庫會更新,業務流程會調整,用戶需求會變化,工具和系統也可能發生改變。如果 Agent 的能力一旦上線就基本固定,它就很難長期適應真實環境。AReaL2.0希望補上的,正是從“會使用工具”到“能從使用中學習”之間缺失的一環。

同時,真實業務中的持續學習也不能只是簡單地“收集數據再訓練”。Agent 可能接觸代碼、客戶信息、企業知識庫和內部系統,因此訓練鏈路必須考慮權限控制、數據脫敏、隔離和審計等要求。AReaL2.0在系統設計中引入了面向 Agent 軌跡的數據代理機制,讓真實任務數據進入訓練流程時,可以在更安全、可控的前提下被管理和使用。

AReaL 團隊在技術報告中指出,自演進 Agent 的關鍵瓶頸,不只是模型本身有多強,也不只是強化學習算法是否先進,而是缺少一套能夠服務真實 Agent 的在線強化學習基礎設施。AReaL2.0正是面向下一代智能體應用進行的架構升級:把 Agent 服務、真實任務軌跡、數據治理和在線強化學習訓練連接起來,讓 Agent 在部署之後繼續學習具備了可落地的工程基礎。

從更長遠的角度看,AReaL2.0指向的是下一代智能體應用的演進範式:Agent 不再只是一次性訓練和部署的工具,而是在真實環境中不斷獲得反饋,把成功和失敗都轉化爲經驗,並在安全邊界內不斷提升自身能力。

AReaL 項目由螞蟻集團、清華大學和香港科技大學等團隊於2024年發起。2026年5月,AReaL 正式從螞蟻 InclusionAI 孵化成爲獨立開源社區,並加入 PyTorch Foundation Ecosystem 項目,進一步融入主流強化學習基礎設施生態。

隨着社區獨立發展,AReaL 也在持續獲得產業和開源生態夥伴的參與和支持,包括華爲雲團隊、MindLab 等。未來,AReaL 將繼續圍繞在線強化學習、自動化評估和多模態智能體訓練等方向迭代,與社區共同推進自演進智能體生態發展。

目前,AReaL2.0技術報告和代碼已開源。

· GitHub 倉庫:https://github.com/areal-project/AReaL

· 技術報告:https://arxiv.org/abs/2607.01120