近日,來自英國政府 AI 安全研究所的計算機科學家及斯坦福大學、加州大學伯克利分校和牛津大學的專家們,對超過440個用於評估新人工智能模型安全性和有效性的基準進行了深入研究。他們發現幾乎所有測試在某一領域存在缺陷,這些缺陷可能會 “削弱結果聲明的有效性”,並且一些測試的評分結果可能 “無關緊要甚至誤導”。

圖源備註:圖片由AI生成
隨着各大科技公司不斷推出新 AI,公衆對 AI 的安全性和有效性日益擔憂。當前,美國和英國尚未實施全國範圍的 AI 監管,而這些基準則成爲檢驗新 AI 是否安全、是否符合人類利益及其在推理、數學和編碼方面聲稱能力的重要工具。
研究的首席作者、牛津互聯網研究所的 Andrew Bean 表示:“基準測試支撐着幾乎所有關於 AI 進步的聲明,但缺乏統一的定義和可靠的測量,使得我們難以判斷模型是否真正改善,還是僅僅看似改善。” 他提到,谷歌最近撤回了其新推出的 AI 模型 Gemma,因爲該模型傳播了有關美國參議員的不實指控,且這些指控是完全虛構的。
這並不是個別現象。Character.ai 也在最近宣佈禁止青少年與其 AI 聊天機器人進行開放式對話,原因是該公司捲入了幾起青少年自殺的爭議。研究顯示,只有16% 的基準使用不確定性估計或統計測試來展示其準確性。在一些評估 AI 特性的基準中,像 “無害性” 這樣的概念定義不清,導致測試效果不佳。
專家們呼籲制定共享標準和最佳實踐,以改善 AI 的評估過程,從而確保其安全性與有效性。
劃重點:
🌐 研究發現,440多個 AI 測試基準幾乎都有缺陷,影響結果有效性。
🚨 谷歌的 Gemma 模型因傳播虛假指控而被撤回,凸顯 AI 監管的緊迫性。
📊 僅16% 的基準使用統計測試,缺乏標準化,亟需改進 AI 評估方法。
