人工知能技術の進展に伴い、複雑なタスクを独立して行える大規模言語モデル(LLM)エージェントを開発する方法が研究の焦点となっています。

これらのエージェントが人間のように、探索と環境との相互作用を通じて学ぶことができるようになるためには、強力で統一された強化学習(RL)フレームワークが必要です。しかし現在の研究では、多様な現実的な環境において、監督的微調整(SFT)に依存せずにゼロからエージェントをトレーニングできる効果的な方法がまだ存在していません。

image.png

この問題を解決するために、ビットテックのSeed研究チームは「AgentGym-RL」という新しいフレームワークをリリースしました。このフレームワークは、強化学習を通じてLLMエージェントを訓練し、複数ラウンドの対話意思決定を行うことを目的としています。このフレームワークはモジュール化され、解耦されたアーキテクチャを持つため、非常に高い柔軟性と拡張性を持っています。AgentGym-RLは様々な現実的なシナリオをカバーしており、主流の強化学習アルゴリズムをサポートし、エージェントの意思決定能力を全体的に向上させます。

さらにトレーニング効果を最適化するために、研究チームは「ScalingInter-RL」というトレーニング手法を提案しました。この手法は、段階的にインタラクション回数を調整することで、エージェントが初期段階で基本スキルを習得し、その後徐々にインタラクション回数を増やすことで、より多様な問題解決戦略を促進します。このような探索と利用のバランス設計により、エージェントは複雑なタスクに対処する際にも安定した学習と意思決定能力を維持できます。

実験の過程で、研究者はQwen2.5-3BおよびQwen2.5-7Bをベースモデルとして用い、AgentGym-RLおよびScalingInter-RLの5つの異なるシナリオでのパフォーマンスを評価しました。その結果、AgentGym-RLを使用したエージェントは27のタスクで複数の商用モデルを上回る結果を示しました。研究チームは、AgentGym-RLフレームワーク全体、つまりコードとデータセットをオープンソース化することを計画しています。これにより、より多くの研究者がインテリジェントなエージェントを開発する支援が可能になります。

AgentGym-RLフレームワークがカバーするさまざまなシナリオには、ネットワークナビゲーション、深層検索、デジタルゲーム、身体感覚タスク、科学実験などがあります。エージェントはこれらのシナリオで、複雑なタスクを遂行するために、強力な意思決定能力和適応力を備えている必要があります。

プロジェクト:https://agentgym-rl.github.io/

注目ポイント:

🌐 AgentGym-RLフレームワークは、大規模言語モデルエージェントを強化学習によって訓練し、複雑なタスクにおける意思決定能力を向上させる新しい方法を提供しています。

🔄 ScalingInter-RLトレーニング方法は、段階的にインタラクション回数を調整することで、トレーニング中に効果的な探索と利用のバランスを実現します。

🏆 実験の結果、AgentGym-RLフレームワークはエージェントのパフォーマンスを顕著に向上させ、複数の商用モデルを上回り、トップクラスの専有大規模モデルと同等の能力を備えていることが示されました。