スタンフォード大学の研究チームは最近、AgentFlowをリリースしました。これはモジュール設計とツールの統合を通じてAIの知能意思決定能力を向上させることが目的のトレーニング可能なインテリジェントエージェントフレームワークです。AgentFlowは4つのモジュールで構成されています:プランナー(Planner)、エクセキューター(Executor)、検証者(Verifier)、生成者(Generator)であり、明示的なメモリによって調整されます。各ステップにおいて、プランナーはサブターゲットを提案し、適切なツールとコンテキストを選択します。エクセキューターはツールを呼び出し、検証者は継続するかどうかを判断し、生成者はタスク終了後に最終的な答えを提供します。

このフレームワークのコアイノベーションはそのトレーニング方法である「Flow-GRPO(フローに基づくグループ精製戦略最適化)」です。この方法は、長期的なスパンやスパース報酬の最適化問題を処理可能な単一ラウンドの更新に変換できます。具体的には、Flow-GRPOは各ステップで一意の検証可能なトラジェクトリーレベルの信号をブロードキャストし、成功したグローバルターゲットと局所的なステップを一致させます。同時に、それぞれのトークンの重み付き比率を計算し、PPOスタイルのカットとKLペナルティを組み合わせることで、ポリシーのずれを防ぎます。
複数のベンチマークテストで、研究チームはAgentFlowを評価し、知識集約型の検索、エージェント推論、数学および科学の4つのタスクタイプを主に扱いました。Flow-GRPOで最適化された7Bモデルは、10のベンチマークにおいて平均して14.9%(検索タスク)、14.0%(エージェント推論)、14.5%(数学タスク)、4.1%(科学タスク)の改善を示しました。研究チームは、このモデルがこれらのタスクで既存の強力なベースラインを上回り、GPT-4oをも超えていることを示しています。
また、研究ではAgentFlowを使用したツール呼び出しの信頼性が大幅に向上し、ツール呼び出しエラーが28.4%減少していることも示されています。これらの成果は、より大きなラウンド予算とモデルサイズでの計画品質の著しい改善を示しています。
AgentFlowの公開実装は、モジュール化されたツールキットを提供し、ユーザーが推論、トレーニング、ベンチマークテストを行うために素早く起動するスクリプトを添付しています。プロジェクトはMITライセンスを使用しており、オープンソースかつアクセス可能であり、広範な研究開発をサポートしています。
ポイント:
🛠️ AgentFlowは、プランナー、エクセキューター、検証者、生成者の4つのモジュールを持つモジュール型のAIエージェントフレームワークです。
🚀 Flow-GRPOトレーニング方法は、各ステップごとにトラジェクトリーレベルの報酬でガイドすることで、エージェントの意思決定プロセスを効率的に最適化できます。
📈 実験結果によると、AgentFlowは複数のベンチマークテストで優れた性能を示し、タスク完了率の平均で14.9%の改善を示し、既存の強力なベースラインを上回っています。
