相关推荐
AI 安全性与有效性测试存在严重缺陷,引发专家关注
英国与多所顶尖大学专家研究发现,440多个AI模型安全评估基准几乎都存在缺陷,可能削弱结果有效性,甚至产生误导性评分,影响AI安全评估的可靠性。
专家揭示数百项 AI 安全测试存在严重缺陷
英国科学家研究发现,当前AI模型安全测试存在广泛缺陷。分析440多个基准测试后发现,几乎所有测试都存在可能影响结论有效性的弱点。该研究由牛津大学等机构联合开展。
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。xbench 的推出源于红杉中国在2022年 ChatGPT 发布后对 AGI(通用人工智能)进程的关注。随着智能体(Agent)在各个领域的广泛应用,传统的静态基准测试方法显得捉襟见肘,难以准确反映模型的实际能力
OpenAI推出AI Agent评测基准PaperBench
OpenAI 团队推出了一个名为 PaperBench 的基准测试,旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议(ICML)中的重点和口头论文,整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性,研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务,并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务,所有评分量规均与每篇论文的作者合作开发,以保证其准确性和真
OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能
在软件工程领域,随着挑战的不断演变,传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变,远不止是孤立的编码任务。自由职业工程师需要处理整个代码库,集成多种系统,并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试,无法充分反映全栈性能和解决方案的实际经济影响。因此,开发更为真实的评估方法显得尤为重要。为此,OpenAI 推出了 SWE-Lancer,一个针对真实世界自由软件工程工作进行模型性能评估的基准测试。该基准测试基于来自 Upwork 和 Expen
