人工知能(AI)技術の進歩に伴い、企業は単一のAIエージェントに依存すべきか、それとも複数の機能を網羅するマルチエージェントネットワークを構築すべきかを検討し始めています。最近、オーケストレーションフレームワーク企業LangChainは、AIエージェントが過剰な指示やツールに直面した際の限界を探る実験を行いました。
LangChainはブログ記事で実験の詳細を説明しており、中心となる問題は「ReActエージェントが過剰な指示やツールを処理するように求められた場合、どのような状況で性能が低下するか?」です。この問題に答えるため、研究チームは「最も基本的なエージェントアーキテクチャの1つ」と考えられているReActエージェントフレームワークを選択しました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
実験では、LangChainは社内メールアシスタントの2つの具体的なタスク(顧客からの問い合わせへの回答と会議のスケジュール設定)におけるパフォーマンスを評価することを目標としました。研究者たちは、一連の事前に構築されたReActエージェントを使用し、LangGraphプラットフォームでテストを行いました。使用された言語モデルには、AnthropicのClaude-3.5-Sonnet、MetaのLlama-3.3-70B、OpenAIのGPT-4oなど複数のバージョンが含まれます。
実験の最初のステップは、メールアシスタントの顧客サポート能力、具体的にはエージェントが顧客のメールを受け取り、返信する方法をテストすることでした。次に、LangChainは、エージェントが特定の指示を正確に記憶できることを確認するために、カレンダーのスケジュール設定におけるパフォーマンスにも特に注目しました。
研究者たちは、各タスクに30件の負荷テストを設定し、顧客サポートとカレンダーのスケジュール設定の2つの分野に分けました。結果は、エージェントに過剰なタスクを与えると、多くの場合、負担が大きくなり、必要なツールを呼び出すことを忘れてしまうことを示しました。例えば、最大7つの分野のタスクを処理する場合、GPT-4oのパフォーマンスは2%に低下しました。一方、Llama-3.3-70Bはタスクテストで頻繁にミスを犯し、メール送信ツールを呼び出すことができませんでした。
LangChainは、コンテキストの増加に伴い、エージェントの指示実行能力が著しく低下することを発見しました。Claude-3.5-sonnetや他のいくつかのモデルは、複数分野のタスクで比較的良好なパフォーマンスを示しましたが、タスクの複雑さが増すと、パフォーマンスは徐々に低下しました。同社は、今後、エージェントのパフォーマンスを向上させるために、マルチエージェントアーキテクチャを評価する方法をさらに検討すると述べています。