3月4日、アリババグループは清华大学と共同でオープンソースの強化学習トレーニングフレームワーク「AReaL v1.0」を発表しました。このバージョンの特徴は「エージェントが一括でRLトレーニングに接続可能」であり、コードを変更することなく、あらゆるエージェントフレームワークを互換性を持たせ、スマートエージェントの強化学習トレーニングを即時に利用できるようにします。
2026年以降、エージェントは継続的に注目されており、LangChain、Claude Code、OpenClawなどの代表的なエージェントフレームワークが急速に発展していますが、同時に2つの課題も浮き彫りになりました。一つは、トレーニングへの接続コストが高いことです。現行のエージェントフレームワークにはインターフェースが異なり、各エージェントを接続する際には通常、すべての適合コードを記述しなければなりません。二つ目は、エージェントが持続的な進化能力を欠いていることです。多くのエージェントの能力は、トレーニング段階で学んだ固定された重みに依存しており、デプロイ後には特定のシナリオに対して継続的に最適化できず、能力の上限は納品時に決定されます。
AReaLは、最初に完全な非同期なトレーニングと推論の分離を実現した大規模モデルの強化学習トレーニングシステムです。これにより、エージェントは現実的なタスクの相互作用を通じてフィードバックを得て、継続的に意思決定を最適化できます。今回のv1.0バージョンでは、任意のエージェントがゼロの改造でRLトレーニングに接続することが可能です。エージェントとトレーニングシステムの間にProxy Workerの中間層を追加することで、開発者は1つのリクエストアドレスのみを変更すればトレーニングに接続できます。

(図説:AReaL はエージェントにスムーズに統合される非同期トレーニング構造)
現在人気のあるOpenClawを例に挙げると、開発者はOpenClawの設定ファイルでbase_urlとapi_keyをAReaLゲートウェイに指定するだけで、自分のOpenClawを強化学習トレーニングに接続できます。エージェントはいつも通りタスクを実行し、ユーザーは定期的にエージェントがタスクを完了した状況を評価します。AReaLはバックグラウンドで自動的にトレーニングデータの収集とモデルの更新を行います。継続的な使用を通じて、エージェントが自動的に進化していきます。
AReaL v1.0は、独自のトレーニングエンジン「Archon」を導入しました。これはPyTorchのネイティブな機能に基づいて、完全な5D並列(データ並列、パイプライン並列、テンソル並列、コンテキスト並列、エキスパート並列)を実現しています。インストールとデバッグの門檻を下げつつ、トレーニングと推論側で多様なバックエンドを選択でき、さまざまな環境での柔軟な配置が可能です。驚くべきことに、このような複雑な分散システムをゼロから実装し、正しい性質を検証するのに、わずか1人・月の作業量で達成されました。32日間で、約百万行のコードを変更し、完全にArchonエンジンを実装し、その結果、数千億パラメータを持つMoEモデルのトレーニングが可能になりました。
この効率的な奇跡をもたらした秘密は、AReaLが統合した一連のAI支援開発システムであり、複雑なエンジニアリング開発を高度に自動化しています。

AReaL v1.0が導入したAI支援開発プロセスは、開発者に計画、コーディング、検証、PR作成までの全工程をサポートします。特にMoE並列、メモリ最適化、アルゴリズム実装などのコアモジュールを取り扱う際には、専用のAIプログラミングアシスタントが熟練のエキスパートのように、コード変更時に即座に出現し、対応する指導を提供します。これにより、すべてのコード変更が安全に行われ、開発とメンテナンスの門檻が効果的に低下します。AReaLのAI支援プログラミングは単なる効率向上ツールではなく、複雑なインフラストラクチャエンジニアリングにおいて「実現可能な」開発作業を担うものであり、次世代のAIインフラストラクチャエンジニアリングの新しい形をリードしています。
AReaLチームは、今後もトレーニングエンジン、使いやすさ、マルチモーダルエージェントトレーニングなどの方向性で進化を続けていく予定です。現在、AReaL v1.0のコードとドキュメントはinclusionAIコミュニティでオープンソース化されています。
· GitHub リポジトリ: https://github.com/inclusionAI/AReaL
· 関連論文: https://arxiv.org/abs/2505.24298
