正文

亞馬遜AWS推出人類基準測試團隊，改進人工智能模型評估

發布於AI新閒資訊

時間 :Nov 30, 2023

閱讀 :1分鐘

亞馬遜希望用戶能夠更好地評估人工智能模型，並鼓勵更多人蔘與這一過程。AWS推出Bedrock上的模型評估，以評估其存儲庫中的模型。模型評估包括自動評估和人工評估兩個部分，可以根據不同指標評估模型性能。AWS還提供人工評估團隊與用戶合作，檢測到自動系統無法檢測到的指標。重要的是模型要爲客戶工作，要知道哪個模型最適合他們，我們正在給他們一種更好地評估這一點的方法。

AI 安全性與有效性測試存在嚴重缺陷，引發專家關注

英國與多所頂尖大學專家研究發現，440多個AI模型安全評估基準幾乎都存在缺陷，可能削弱結果有效性，甚至產生誤導性評分，影響AI安全評估的可靠性。

Nov 4, 2025

146.1k

專家揭示數百項 AI 安全測試存在嚴重缺陷

英國科學家研究發現，當前AI模型安全測試存在廣泛缺陷。分析440多個基準測試後發現，幾乎所有測試都存在可能影響結論有效性的弱點。該研究由牛津大學等機構聯合開展。

Nov 4, 2025

142.3k

紅杉中國推出全新 AI 基準測試工具，助力智能體評估新標準

隨着人工智能技術的迅速發展，尤其是大型模型的不斷進步，基準測試在評估 AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀，紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估，還引入了動態更新機制，確保測試的有效性和公正性。xbench 的推出源於紅杉中國在2022年 ChatGPT 發佈後對 AGI（通用人工智能）進程的關注。隨着智能體(Agent)在各個領域的廣泛應用，傳統的靜態基準測試方法顯得捉襟見肘，難以準確反映模型的實際能力

May 26, 2025

250.2k

OpenAI推出AI Agent評測基準PaperBench

OpenAI 團隊推出了一個名爲 PaperBench 的基準測試，旨在評估AI代理在複製先進 AI 研究方面的能力。該測試要求 AI 代理從頭開始複製20篇2024年國際機器學習會議（ICML）中的重點和口頭論文，整個過程涉及理解論文貢獻、開發代碼庫以及成功執行實驗。爲確保評估的客觀性，研究人員設計了詳細的評分標準。這些標準將每項複製任務分解爲多個層級的子任務，並設定明確的評分標準。PaperBench 一共包含8316個可以單獨評分的任務，所有評分量規均與每篇論文的作者合作開發，以保證其準確性和真

Apr 3, 2025

268.9k

OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能

在軟件工程領域，隨着挑戰的不斷演變，傳統的基準測試方法顯得力不從心。自由職業的軟件工程工作複雜多變，遠不止是孤立的編碼任務。自由職業工程師需要處理整個代碼庫，集成多種系統，並滿足複雜的客戶需求。而傳統的評估方法通常側重於單元測試，無法充分反映全棧性能和解決方案的實際經濟影響。因此，開發更爲真實的評估方法顯得尤爲重要。爲此，OpenAI 推出了 SWE-Lancer，一個針對真實世界自由軟件工程工作進行模型性能評估的基準測試。該基準測試基於來自 Upwork 和 Expen

Feb 18, 2025

216.4k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

亞馬遜AWS推出人類基準測試團隊，改進人工智能模型評估

相關推薦

​AI 安全性與有效性測試存在嚴重缺陷，引發專家關注

專家揭示數百項 AI 安全測試存在嚴重缺陷

紅杉中國推出全新 AI 基準測試工具，助力智能體評估新標準

OpenAI推出AI Agent評測基準PaperBench

​OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能

AI 安全性與有效性測試存在嚴重缺陷，引發專家關注

OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能