OpenClaw能“邊用邊訓”了：智能體強化學習訓練框架AReaL v1.0穩定版發佈

3月4 日，螞蟻集團聯合清華大學發佈開源強化學習訓練框架 AReaL v1.0穩定版。該版本主打“Agent 一鍵接入 RL 訓練”:不用改代碼，兼容各類 Agent 框架，讓智能體強化學習訓練開箱即用。

2026年開年以來，Agent 持續升溫，以 LangChain、Claude Code、OpenClaw 爲代表的智能體框架繁榮發展，但也暴露出兩大瓶頸。一是接入訓練成本高:現有智能體框架接口各異，每接入一個往往需要編寫整套適配代碼。二是 Agent 缺乏持續進化的能力:多數 Agent 的能力取決於底層模型在訓練階段習得的固定權重，部署後無法再針對特定場景持續優化，能力上限在交付時便已確定。

AReaL 是首個全異步訓推解耦的大模型強化學習訓練系統，能讓 Agent 在真實任務交互中獲得反饋、持續優化決策。此次發佈的 v1.0版本讓任意 Agent 零改造接入 RL 訓練成爲現實——通過在智能體與訓練系統之間加入 Proxy Worker 中轉層，開發者只需修改一個請求地址即可接入訓練。

（圖說:AReaL 無縫接入智能體的異步訓練架構）

以當前大熱的 OpenClaw 爲例，開發者只需在 OpenClaw 配置文件中將 base_url 和 api_key 指向 AReaL 網關，就能讓自己的 OpenClaw 接入強化學習訓練。智能體像往常一樣執行任務，用戶週期性給 Agent 完成任務的情況打分，AReaL 在後臺自動完成訓練數據的採集與模型的更新，在持續使用的過程中讓智能體自動進化。

AReaL v1.0還推出了原生訓練引擎 Archon，它是基於 PyTorch 原生能力實現完整的5D 並行（數據並行、流水線並行、張量並行、上下文並行、專家並行），降低了安裝與調試門檻，同時在訓練與推理側提供多種後端選擇，便於在不同環境中靈活部署。令人驚訝的是，這樣一個複雜的分佈式系統，從零開始實現到驗證正確性，僅用了1人·月的工作量——32天內，累計修改近百萬行代碼完整實現了 Archon 引擎，讓它能訓練千億參數 MoE 模型。

創造這一效率奇蹟的祕訣在於AReaL集成的一整套AI輔助開發體系，實現了複雜工程開發的高度自動化。

AReaL v1.0引入的 AI 輔助開發流程，爲開發者提供了從規劃、編碼、校驗到 PR 創建的全鏈路支持。尤其是在處理 MoE 並行、內存優化、算法實現等核心模塊時，專屬的 AI 編程助手會像一位資深專家，在代碼變更時及時出現並提供針對性指導，爲每一次代碼變更保駕護航，有效降低了開發和維護的門檻。AReaL 的 AI 輔助編程不只是提效工具，更能在複雜基礎設施工程中承擔“可交付”的研發工作，引領了下一代 AI 基礎設施工程範式的革新。

AReaL 團隊表示，將繼續圍繞訓練引擎、易用性和多模態智能體訓練等方向迭代。目前 AReaL v1.0的代碼與文檔已在 inclusionAI 社區開源。

· GitHub 倉庫:https://github.com/inclusionAI/AReaL

· 相關論文:https://arxiv.org/abs/2505.24298

OpenClaw能“邊用邊訓”了：智能體強化學習訓練框架AReaL v1.0穩定版發佈

相關推薦

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

前 DeepMind 團隊量化 AI 公司 EquiLibre 完成 A 輪融資，估值達5億美元

微信支付正式發佈“AI專屬卡”:支持Agent閉環消費，主賬戶完全隔離

騰訊會議多項AI功能升級，元寶紀要月使用時長增長近5倍

釦子 3.0 正式上線，支持多人多 Agent 協同作業