相關推薦
AI 安全性與有效性測試存在嚴重缺陷,引發專家關注
英國與多所頂尖大學專家研究發現,440多個AI模型安全評估基準幾乎都存在缺陷,可能削弱結果有效性,甚至產生誤導性評分,影響AI安全評估的可靠性。
專家揭示數百項 AI 安全測試存在嚴重缺陷
英國科學家研究發現,當前AI模型安全測試存在廣泛缺陷。分析440多個基準測試後發現,幾乎所有測試都存在可能影響結論有效性的弱點。該研究由牛津大學等機構聯合開展。
紅杉中國推出全新 AI 基準測試工具,助力智能體評估新標準
隨着人工智能技術的迅速發展,尤其是大型模型的不斷進步,基準測試在評估 AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀,紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估,還引入了動態更新機制,確保測試的有效性和公正性。xbench 的推出源於紅杉中國在2022年 ChatGPT 發佈後對 AGI(通用人工智能)進程的關注。隨着智能體(Agent)在各個領域的廣泛應用,傳統的靜態基準測試方法顯得捉襟見肘,難以準確反映模型的實際能力
OpenAI推出AI Agent評測基準PaperBench
OpenAI 團隊推出了一個名爲 PaperBench 的基準測試,旨在評估AI代理在複製先進 AI 研究方面的能力。該測試要求 AI 代理從頭開始複製20篇2024年國際機器學習會議(ICML)中的重點和口頭論文,整個過程涉及理解論文貢獻、開發代碼庫以及成功執行實驗。爲確保評估的客觀性,研究人員設計了詳細的評分標準。這些標準將每項複製任務分解爲多個層級的子任務,並設定明確的評分標準。PaperBench 一共包含8316個可以單獨評分的任務,所有評分量規均與每篇論文的作者合作開發,以保證其準確性和真
OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能
在軟件工程領域,隨着挑戰的不斷演變,傳統的基準測試方法顯得力不從心。自由職業的軟件工程工作複雜多變,遠不止是孤立的編碼任務。自由職業工程師需要處理整個代碼庫,集成多種系統,並滿足複雜的客戶需求。而傳統的評估方法通常側重於單元測試,無法充分反映全棧性能和解決方案的實際經濟影響。因此,開發更爲真實的評估方法顯得尤爲重要。爲此,OpenAI 推出了 SWE-Lancer,一個針對真實世界自由軟件工程工作進行模型性能評估的基準測試。該基準測試基於來自 Upwork 和 Expen
