相關推薦
基準測試不等於真實能力?研究稱AI代碼“通過率”或被高估最高達7倍
研究指出,SWE-bench Verified基準測試可能高估AI編程能力。該測試中被判“通過”的AI代碼方案,約一半在實際項目審覈中會被拒絕,顯示自動化評測與真實工程質量存在明顯差距。這一發現對AI輔助軟件工程評估標準提出了重要質疑。
AI 安全性與有效性測試存在嚴重缺陷,引發專家關注
英國與多所頂尖大學專家研究發現,440多個AI模型安全評估基準幾乎都存在缺陷,可能削弱結果有效性,甚至產生誤導性評分,影響AI安全評估的可靠性。
專家揭示數百項 AI 安全測試存在嚴重缺陷
英國科學家研究發現,當前AI模型安全測試存在廣泛缺陷。分析440多個基準測試後發現,幾乎所有測試都存在可能影響結論有效性的弱點。該研究由牛津大學等機構聯合開展。
紅杉中國推出全新 AI 基準測試工具,助力智能體評估新標準
隨着人工智能技術的迅速發展,尤其是大型模型的不斷進步,基準測試在評估 AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀,紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估,還引入了動態更新機制,確保測試的有效性和公正性。xbench 的推出源於紅杉中國在2022年 ChatGPT 發佈後對 AGI(通用人工智能)進程的關注。隨着智能體(Agent)在各個領域的廣泛應用,傳統的靜態基準測試方法顯得捉襟見肘,難以準確反映模型的實際能力
OpenAI推出AI Agent評測基準PaperBench
OpenAI 團隊推出了一個名爲 PaperBench 的基準測試,旨在評估AI代理在複製先進 AI 研究方面的能力。該測試要求 AI 代理從頭開始複製20篇2024年國際機器學習會議(ICML)中的重點和口頭論文,整個過程涉及理解論文貢獻、開發代碼庫以及成功執行實驗。爲確保評估的客觀性,研究人員設計了詳細的評分標準。這些標準將每項複製任務分解爲多個層級的子任務,並設定明確的評分標準。PaperBench 一共包含8316個可以單獨評分的任務,所有評分量規均與每篇論文的作者合作開發,以保證其準確性和真
