LangChainによる研究、AIエージェントのツール使用におけるボトルネックを明らかに

人工知能（AI）技術の進歩に伴い、企業は単一のAIエージェントに依存すべきか、それとも複数の機能を網羅するマルチエージェントネットワークを構築すべきかを検討し始めています。最近、オーケストレーションフレームワーク企業LangChainは、AIエージェントが過剰な指示やツールに直面した際の限界を探る実験を行いました。

LangChainはブログ記事で実験の詳細を説明しており、中心となる問題は「ReActエージェントが過剰な指示やツールを処理するように求められた場合、どのような状況で性能が低下するか？」です。この問題に答えるため、研究チームは「最も基本的なエージェントアーキテクチャの1つ」と考えられているReActエージェントフレームワークを選択しました。

ロボット人工知能2025

画像出典：AI生成画像、画像ライセンス提供元Midjourney

実験では、LangChainは社内メールアシスタントの2つの具体的なタスク（顧客からの問い合わせへの回答と会議のスケジュール設定）におけるパフォーマンスを評価することを目標としました。研究者たちは、一連の事前に構築されたReActエージェントを使用し、LangGraphプラットフォームでテストを行いました。使用された言語モデルには、AnthropicのClaude-3.5-Sonnet、MetaのLlama-3.3-70B、OpenAIのGPT-4oなど複数のバージョンが含まれます。

実験の最初のステップは、メールアシスタントの顧客サポート能力、具体的にはエージェントが顧客のメールを受け取り、返信する方法をテストすることでした。次に、LangChainは、エージェントが特定の指示を正確に記憶できることを確認するために、カレンダーのスケジュール設定におけるパフォーマンスにも特に注目しました。

研究者たちは、各タスクに30件の負荷テストを設定し、顧客サポートとカレンダーのスケジュール設定の2つの分野に分けました。結果は、エージェントに過剰なタスクを与えると、多くの場合、負担が大きくなり、必要なツールを呼び出すことを忘れてしまうことを示しました。例えば、最大7つの分野のタスクを処理する場合、GPT-4oのパフォーマンスは2％に低下しました。一方、Llama-3.3-70Bはタスクテストで頻繁にミスを犯し、メール送信ツールを呼び出すことができませんでした。

LangChainは、コンテキストの増加に伴い、エージェントの指示実行能力が著しく低下することを発見しました。Claude-3.5-sonnetや他のいくつかのモデルは、複数分野のタスクで比較的良好なパフォーマンスを示しましたが、タスクの複雑さが増すと、パフォーマンスは徐々に低下しました。同社は、今後、エージェントのパフォーマンスを向上させるために、マルチエージェントアーキテクチャを評価する方法をさらに検討すると述べています。

LangChainによる研究、AIエージェントのツール使用におけるボトルネックを明らかに

関連推奨

アマゾンが1万4000人のリストラを実施：AIへの転換が加速、人的な職はロボットに置き換えられるのか？

ゲイツが警告：AIへの投資は痛い失敗をもたらす可能性があるデータセンターが電力コストを高騰させる恐れ

アマゾンが1万4000人の社員を解雇 AIと自動化が急速に台頭

Vercel がAI技術を活用してチームを縮小し、販売効率を大幅に向上

ザッカーバーグ：AIはソーシャルメディアにさらに多くのコンテンツの活力をもたらす

LangChainによる研究、AIエージェントのツール使用におけるボトルネックを明らかに

関連推奨

アマゾンが1万4000人のリストラを実施：AIへの転換が加速、人的な職はロボットに置き換えられるのか？

ゲイツが警告：AIへの投資は痛い失敗をもたらす可能性がある データセンターが電力コストを高騰させる恐れ

アマゾンが1万4000人の社員を解雇 AIと自動化が急速に台頭

Vercel がAI技術を活用してチームを縮小し、販売効率を大幅に向上

ザッカーバーグ：AIはソーシャルメディアにさらに多くのコンテンツの活力をもたらす

ゲイツが警告：AIへの投資は痛い失敗をもたらす可能性があるデータセンターが電力コストを高騰させる恐れ