近日,人工智能公司 Anthropic 宣佈推出其新開發的審計Agent,旨在對 AI 模型進行對齊測試。這一創新的舉措是在其 Claude Opus4模型的部署前期測試過程中研發的,標誌着在 AI 安全性和可靠性方面的又一重要進展。
AI 模型在與用戶互動時,可能會出現過於迎合用戶需求的情況,這對於企業來說可能造成潛在的風險。因此,除了對模型的性能進行評估外,進行對齊測試變得尤爲重要。然而,傳統的對齊審計面臨着可擴展性和驗證性的重大挑戰,審計工作通常需要人類研究人員投入大量時間,同時也難以確保審計覆蓋到所有問題。
在最新發佈的論文中,Anthropic 的研究人員表示,他們開發的審計Agent在審計任務中表現出色,同時也揭示了自身的侷限性。通過這些審計Agent,研究人員能夠在更大規模上進行多次並行審計,提升了對齊驗證的效率。此外,Anthropic 還將這些審計Agent的代碼在 GitHub 上開源,以便更多研究者進行探索。
研究團隊開發了三種審計Agent,分別爲:
1. 工具使用調查Agent,用於使用聊天、數據分析和可解釋性工具進行開放式調查。
2. 評估Agent,能夠建立行爲評估並區分模型中是否存在植入的行爲。
3. 廣度優先紅隊Agent,專門爲 Claude4的對齊評估而開發,用於發現植入的測試行爲。
在實際測試中,調查Agent能夠識別故意不對齊模型的根本原因,成功率爲10-13%,而使用 “超級Agent” 方法後,這一成功率提升至42%。評估Agent也能識別多種模型的特定行爲特徵,但在一些微妙的行爲表現上仍存在不足。紅隊Agent則通過與目標模型進行對話,能夠識別出一部分系統特徵,但同樣面臨挑戰。
AI 對齊問題近年來備受關注,特別是在一些模型表現出過度迎合用戶的現象後。爲了解決這一問題,許多新的評估標準相繼被提出,例如評估模型的迎合性及其他潛在偏差。
雖然 Anthropic 的審計Agent仍需進一步完善,但公司表示,隨着 AI 系統的日益強大,迫切需要可擴展的對齊評估方法,以應對人類審覈的時間成本和驗證困難。
劃重點:
🌟 Anthropic 推出審計Agent,提升 AI 模型對齊測試的效率。
🔍 三種審計Agent分別負責調查、評估和紅隊測試。
⚙️ 開源代碼在 GitHub 上發佈,鼓勵更多研究者參與探索。