在短短六天內,參與者成功繞過了Anthropic人工智能(AI)模型Claude3.5的所有安全防護措施,這一突破爲AI安全防護領域帶來了新的討論。前OpenAI對齊團隊成員、現就職於Anthropic的Jan Leike在X平臺宣佈,一名參與者成功攻破了所有八個安全級別。這項集體努力涉及了約3,700小時的測試和來自參與者的300,000條消息。

儘管挑戰者成功突破,但Leike強調,目前還沒有人能夠提出一種通用的“越獄方法”來一次性解決所有安全挑戰。這意味着儘管存在突破,依然無法找到一種萬能的方式來繞過所有的安全防護。

Claude2,Anthropic,人工智能,聊天機器人 
 克勞德

體質分類器的挑戰與改進

隨着AI技術的日益強大,如何保護它們免受操控和濫用,特別是在涉及有害輸出時,成爲了越來越重要的問題。Anthropic爲此開發了一種新型安全方法——體質分類器,專門防止通用越獄行爲的發生。該方法通過預設規則來判斷輸入內容是否可能操控模型,進而防止危險響應。

爲了測試這一系統的有效性,Anthropic在兩個月的時間裏招募了183名參與者,嘗試突破Claude3.5模型的安全防護。參與者被要求嘗試繞過安全機制,使Claude回答十個“禁忌問題”。儘管提供了15,000美元獎金並進行了近3,000小時的測試,但沒有人能繞過所有的安全防護。

早期版本的體質分類器有一些問題,包括錯誤標記無害請求爲危險請求以及需要大量計算能力。但隨着後續的改進,這些問題得到了有效解決。測試數據顯示,未經保護的Claude模型有86%的操控嘗試得以通過,而經過保護的版本則阻止了超過95%的操控嘗試,儘管該系統仍需要較高的計算能力。

合成訓練數據與未來安全挑戰

該安全系統基於合成訓練數據,使用預定義規則構建模型的“憲法”,這些規則決定了哪些輸入是允許的,哪些是禁止的。通過這些合成示例訓練出來的分類器可以有效識別可疑的輸入。然而,研究人員承認,這一系統並非完美無缺,無法應對所有形式的通用越獄攻擊,因此建議結合其他安全措施使用。

爲了進一步加強該系統的驗證,Anthropic在2025年2月3日至10日之間發佈了公開演示版本,邀請安全專家參與挑戰,結果將通過後續更新與大家分享。

這場關於AI安全的較量展示了AI模型防護面臨的巨大挑戰和複雜性。隨着技術不斷進步,如何在確保安全的同時提升模型的功能性,依然是AI行業亟待解決的重要課題。