正文

清华团队领衔打造，首个 AI agent 系统性基准测试问世

发布于AI新闻资讯

发布时间 :2023年8月9号 14:07

阅读 :1分钟

清华大学等团队发布了首个 AI agent 系统性基准测试 AgentBench，对 25 个不同语言模型进行了全面评估。研究结果显示，GPT-4 在复杂环境中表现出色，顶级商业语言模型与开源模型存在显著优势。研究团队建议进一步提高开源模型的学习能力。

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

研究指出，SWE-bench Verified基准测试可能高估AI编程能力。该测试中被判“通过”的AI代码方案，约一半在实际项目审核中会被拒绝，显示自动化评测与真实工程质量存在明显差距。这一发现对AI辅助软件工程评估标准提出了重要质疑。

腾讯与清华大学联合推出AI音乐模型SongGeneration2，在技术架构和音乐质量上实现重大突破，显著超越现有开源模型，甚至媲美顶级商业产品，有效解决了AI音乐的“塑料感”问题。

清华大学发布首份AI教育应用指导原则，系统规范校园AI使用，覆盖教学、科研等核心场景。文件分总则、教学、学位论文三部分，强调“积极而审慎”立场，旨在全局引导AI合理应用。

清华大学发布《人工智能教育应用指导原则》，系统规范校园AI使用，涵盖教学、学术研究等核心场景。内容分为总则、教学篇、学位论文及实践成果篇三部分，强调积极引导与分层管理，旨在促进AI在教育领域的合理应用。

清华大学在《自然・机器智能》发表研究，提出“能力密度”新概念，挑战传统AI评估标准。研究强调不应仅关注模型参数数量，而应重视每个参数的智能水平，质疑“模型越大能力越强”的规模法则。

智启未来，您的人工智能解决方案智库