正文

亚马逊AWS推出人类基准测试团队，改进人工智能模型评估

发布于AI新闻资讯

发布时间 :2023年11月30号 9:52

阅读 :1分钟

亚马逊希望用户能够更好地评估人工智能模型，并鼓励更多人参与这一过程。AWS推出Bedrock上的模型评估，以评估其存储库中的模型。模型评估包括自动评估和人工评估两个部分，可以根据不同指标评估模型性能。AWS还提供人工评估团队与用户合作，检测到自动系统无法检测到的指标。重要的是模型要为客户工作，要知道哪个模型最适合他们，我们正在给他们一种更好地评估这一点的方法。

AI 安全性与有效性测试存在严重缺陷，引发专家关注

英国与多所顶尖大学专家研究发现，440多个AI模型安全评估基准几乎都存在缺陷，可能削弱结果有效性，甚至产生误导性评分，影响AI安全评估的可靠性。

2025年11月4号 9:55

131.2k

专家揭示数百项 AI 安全测试存在严重缺陷

英国科学家研究发现，当前AI模型安全测试存在广泛缺陷。分析440多个基准测试后发现，几乎所有测试都存在可能影响结论有效性的弱点。该研究由牛津大学等机构联合开展。

2025年11月4号 9:30

158.2k

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

随着人工智能技术的迅速发展，尤其是大型模型的不断进步，基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状，红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估，还引入了动态更新机制，确保测试的有效性和公正性。xbench 的推出源于红杉中国在2022年 ChatGPT 发布后对 AGI（通用人工智能）进程的关注。随着智能体(Agent)在各个领域的广泛应用，传统的静态基准测试方法显得捉襟见肘，难以准确反映模型的实际能力

2025年5月26号 13:47

250.2k

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真

2025年4月3号 9:31

284.7k

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试，无法充分反映全栈性能和解决方案的实际经济影响。因此，开发更为真实的评估方法显得尤为重要。为此，OpenAI 推出了 SWE-Lancer，一个针对真实世界自由软件工程工作进行模型性能评估的基准测试。该基准测试基于来自 Upwork 和 Expen

2025年2月18号 16:55

216.4k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

亚马逊AWS推出人类基准测试团队，改进人工智能模型评估

相关推荐

​AI 安全性与有效性测试存在严重缺陷，引发专家关注

专家揭示数百项 AI 安全测试存在严重缺陷

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

OpenAI推出AI Agent评测基准PaperBench

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

AI 安全性与有效性测试存在严重缺陷，引发专家关注

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能