《解碼器》的研究團隊開發了一個名爲 AgentBench 的基準測試,用於衡量大語言模型在輔助任務中的能力。通過測試 25 個語言模型,他們發現 GPT-4 在綜合得分和各個領域中表現最佳。該研究團隊還提供了工具包、數據集和基準測試環境,供研究社區使用。這項研究的結果對於進一步評估其他商業和開源模型的性能非常有價值。