3月4 日,螞蟻集團聯合清華大學發佈開源強化學習訓練框架 AReaL v1.0穩定版。該版本主打“Agent 一鍵接入 RL 訓練”:不用改代碼,兼容各類 Agent 框架,讓智能體強化學習訓練開箱即用。
2026年開年以來,Agent 持續升溫,以 LangChain、Claude Code、OpenClaw 爲代表的智能體框架繁榮發展,但也暴露出兩大瓶頸。一是接入訓練成本高:現有智能體框架接口各異,每接入一個往往需要編寫整套適配代碼。二是 Agent 缺乏持續進化的能力:多數 Agent 的能力取決於底層模型在訓練階段習得的固定權重,部署後無法再針對特定場景持續優化,能力上限在交付時便已確定。
AReaL 是首個全異步訓推解耦的大模型強化學習訓練系統,能讓 Agent 在真實任務交互中獲得反饋、持續優化決策。此次發佈的 v1.0版本讓任意 Agent 零改造接入 RL 訓練成爲現實——通過在智能體與訓練系統之間加入 Proxy Worker 中轉層,開發者只需修改一個請求地址即可接入訓練。

(圖說:AReaL 無縫接入智能體的異步訓練架構)
以當前大熱的 OpenClaw 爲例,開發者只需在 OpenClaw 配置文件中將 base_url 和 api_key 指向 AReaL 網關,就能讓自己的 OpenClaw 接入強化學習訓練。智能體像往常一樣執行任務,用戶週期性給 Agent 完成任務的情況打分,AReaL 在後臺自動完成訓練數據的採集與模型的更新,在持續使用的過程中讓智能體自動進化。
AReaL v1.0還推出了原生訓練引擎 Archon,它是基於 PyTorch 原生能力實現完整的5D 並行(數據並行、流水線並行、張量並行、上下文並行、專家並行),降低了安裝與調試門檻,同時在訓練與推理側提供多種後端選擇,便於在不同環境中靈活部署。令人驚訝的是,這樣一個複雜的分佈式系統,從零開始實現到驗證正確性,僅用了1人·月的工作量——32天內,累計修改近百萬行代碼完整實現了 Archon 引擎,讓它能訓練千億參數 MoE 模型。
創造這一效率奇蹟的祕訣在於AReaL集成的一整套AI輔助開發體系,實現了複雜工程開發的高度自動化。

AReaL v1.0引入的 AI 輔助開發流程,爲開發者提供了從規劃、編碼、校驗到 PR 創建的全鏈路支持。尤其是在處理 MoE 並行、內存優化、算法實現等核心模塊時,專屬的 AI 編程助手會像一位資深專家,在代碼變更時及時出現並提供針對性指導,爲每一次代碼變更保駕護航,有效降低了開發和維護的門檻。AReaL 的 AI 輔助編程不只是提效工具,更能在複雜基礎設施工程中承擔“可交付”的研發工作,引領了下一代 AI 基礎設施工程範式的革新。
AReaL 團隊表示,將繼續圍繞訓練引擎、易用性和多模態智能體訓練等方向迭代。目前 AReaL v1.0的代碼與文檔已在 inclusionAI 社區開源。
· GitHub 倉庫:https://github.com/inclusionAI/AReaL
· 相關論文:https://arxiv.org/abs/2505.24298
