このほど、メイティアンのLongCatチームは、複数のインタラクティブなタスク、特に複雑な日常生活シナリオでの応用を対象にした「VitaBench」というインテリジェントエージェント評価基準を正式にリリースしました。VitaBenchの導入により、実際の生活シナリオにおけるインテリジェントエージェントの研究開発に重要なインフラが提供されました。
VitaBenchは、配達注文、レストランでの食事、観光旅行などの頻繁に使用される現実的なシナリオに焦点を当て、66のツールを含むインタラクティブな評価環境を構築しています。評価タスクは、チケット購入からレストラン予約に至るまで多岐にわたり、エージェントがタスク実行中に深く推論し、ツールを使用し、ユーザーと対話する能力を総合的に評価します。
現在の優れた推論モデルでもある程度の進展は見られますが、LongCatチームの研究によると、複雑なマルチシナリオタスクにおけるエージェントの成功率は依然として30%未満であり、現在の技術と実際の応用ニーズとの間には大きなギャップがあることが示されています。VitaBenchの開発はこの問題を解決することを目的としており、現状のエージェント評価基準と現実的な生活シナリオの応用の間の空白を埋めることを目指しています。
このベースラインの設計は、推論の複雑さ、ツールの複雑さ、インタラクションの複雑さの3つの次元についての深い分析に基づいています。チームはこれらの次元を定量化し、リアルタイムのシナリオにおいてエージェントの性能を体系的に測定しています。例えば、推論の複雑さは情報統合の必要性、観察空間のサイズ、処理すべき推論ポイントの数によって評価されます。ツールの複雑さはツールの依存関係や呼び出しチェーンの長さを考慮します。インタラクションの複雑さは、複数のラウンドでの会話に対応する能力に焦点を当てます。
VitaBenchの構築プロセスは2つの段階で行われました。最初はツールの定義の枠組みの設計であり、その後はタスク作成および評価基準の制定です。このプロセスにより、タスクの多様性と複雑性が確保され、従来のドキュメント形式の制限を避けることができ、エージェントが冗長なルールなしで自律的に推論と意思決定を行うことができるようになります。
現在、VitaBenchは全面的にオープンソースとなっており、研究者や開発者はその公式ウェブサイトおよびGitHubから関連リソースにアクセスできます。VitaBenchのリリースは、インテリジェントエージェント評価分野における重要な出来事であり、今後インテリジェントエージェント技術が現実的な生活シナリオでさらに応用・発展することを期待しています。
プロジェクトページ:https://vitabench.github.io
論文リンク:https://arxiv.org/abs/2509.26490
コードリポジトリ:https://github.com/meituan-longcat/vitabench
データセット:https://huggingface.co/datasets/meituan- longcat/VitaBench
ランキング:https://vitabench.github.io/#Leaderboard