人工知能技術の急速な発展に伴い、特に大規模モデルの進化にともない、AI能力を評価するためのベンチマークテストはかつてない挑戦に直面しています。このような状況に対応するため、紅杉中国は5月26日、新たなAIベンチマークツール「xbench」を発表しました。このツールは単にAIモデルの能力を評価するだけでなく、動的な更新メカニズムを導入し、テストの有効性と公平性を保証しています。

image.png

xbenchの開発背景には、2022年にChatGPTが発表された後、紅杉中国がAGI(汎用人工知能)の進展に注目したことがあります。スマートエージェント(Agent)がさまざまな分野で広く利用される中、従来の静的なベンチマークテスト手法ではモデルの実際の能力を正確に反映できないという課題が浮き彫りになりました。そのため、xbenchは二重軌道評価システムを採用し、一方で多角的な評価データセットを作成してモデルの理論的な能力上限を追跡し、他方でエージェントの実際の実地適用価値に焦点を当てています。

具体的な評価方法において、xbenchは「ロングライフ評価メカニズム」を採用しており、評価ツールが技術の急速な進化に対応するために動的に更新されます。この方法はテストの信頼性を高めると同時に、問題のリークを防ぎ、評価の公平性を確保します。過去には多くの業界内のモデルが「ランキング操作」の疑いを受けることがありましたが、xbenchの設計はそのような懸念を解消することを目的としています。

基本的な評価体系に加え、紅杉中国はxbenchで垂直分野のエージェント評価手法も取り入れました。特に採用やマーケティング分野での応用に焦点を当てています。AIエージェントの発展に伴い、深い検索、情報収集、推論解析などの能力がAGIへの重要な鍵となっています。これらを効果的に評価するために、xbenchは特に思考チェーンを持つマルチモーダルモデルが商用ビデオ生成でどれだけ優れたパフォーマンスを示すかに注目し、動的に更新されるアプリケーションにおけるGUIエージェントの信頼性についても重点を置いています。

xbenchの登場により、AIエージェントの評価基準が刷新されただけでなく、業界には持続可能な評価ツールが提供され、将来のAI技術の進化に備える準備が整いました。