デコーダー研究チームによるAgentBenchベンチマーク

「デコーダー」の研究チームは、大規模言語モデルの補助タスクにおける能力を測定するためのベンチマークであるAgentBenchを開発しました。

25種類の言語モデルをテストした結果、GPT-4が総合スコアと各分野で最高の性能を示したことが分かりました。

研究チームは、研究コミュニティが利用できるよう、ツールキット、データセット、およびベンチマーク環境も提供しています。

この研究結果は、他の商用およびオープンソースモデルの性能をさらに評価する上で非常に価値のあるものです。