清華大學等團隊發佈了首個 AI agent 系統性基準測試 AgentBench,對 25 個不同語言模型進行了全面評估。研究結果顯示,GPT-4 在複雜環境中表現出色,頂級商業語言模型與開源模型存在顯著優勢。研究團隊建議進一步提高開源模型的學習能力。