Anthropic安全防護面臨挑戰，AI模型通用越獄測試揭示突破口

在短短六天內，參與者成功繞過了Anthropic人工智能（AI）模型Claude3.5的所有安全防護措施，這一突破爲AI安全防護領域帶來了新的討論。前OpenAI對齊團隊成員、現就職於Anthropic的Jan Leike在X平臺宣佈，一名參與者成功攻破了所有八個安全級別。這項集體努力涉及了約3，700小時的測試和來自參與者的300，000條消息。

儘管挑戰者成功突破，但Leike強調，目前還沒有人能夠提出一種通用的“越獄方法”來一次性解決所有安全挑戰。這意味着儘管存在突破，依然無法找到一種萬能的方式來繞過所有的安全防護。

Claude2，Anthropic，人工智能，聊天機器人
克勞德

體質分類器的挑戰與改進

隨着AI技術的日益強大，如何保護它們免受操控和濫用，特別是在涉及有害輸出時，成爲了越來越重要的問題。Anthropic爲此開發了一種新型安全方法——體質分類器，專門防止通用越獄行爲的發生。該方法通過預設規則來判斷輸入內容是否可能操控模型，進而防止危險響應。

爲了測試這一系統的有效性，Anthropic在兩個月的時間裏招募了183名參與者，嘗試突破Claude3.5模型的安全防護。參與者被要求嘗試繞過安全機制，使Claude回答十個“禁忌問題”。儘管提供了15，000美元獎金並進行了近3，000小時的測試，但沒有人能繞過所有的安全防護。

早期版本的體質分類器有一些問題，包括錯誤標記無害請求爲危險請求以及需要大量計算能力。但隨着後續的改進，這些問題得到了有效解決。測試數據顯示，未經保護的Claude模型有86%的操控嘗試得以通過，而經過保護的版本則阻止了超過95%的操控嘗試，儘管該系統仍需要較高的計算能力。

合成訓練數據與未來安全挑戰

該安全系統基於合成訓練數據，使用預定義規則構建模型的“憲法”，這些規則決定了哪些輸入是允許的，哪些是禁止的。通過這些合成示例訓練出來的分類器可以有效識別可疑的輸入。然而，研究人員承認，這一系統並非完美無缺，無法應對所有形式的通用越獄攻擊，因此建議結合其他安全措施使用。

爲了進一步加強該系統的驗證，Anthropic在2025年2月3日至10日之間發佈了公開演示版本，邀請安全專家參與挑戰，結果將通過後續更新與大家分享。

這場關於AI安全的較量展示了AI模型防護面臨的巨大挑戰和複雜性。隨着技術不斷進步，如何在確保安全的同時提升模型的功能性，依然是AI行業亟待解決的重要課題。

Anthropic安全防護面臨挑戰，AI模型通用越獄測試揭示突破口

相關推薦

AI人才爭奪戰升級:OpenAI、谷歌等科技巨頭爲實習生開出“天價”薪資

50+ Claude 技能庫閃現 GitHub，教你的 AI 學會9大領域專業活兒

谷歌 DeepMind 發佈 Gemma Scope 2：爲 Gemma 3 模型提供全棧可解釋性工具

防範未成年人風險:OpenAI與Anthropic將推出AI年齡預測功能

紅帽收購 AI 公司 Chatterbox Labs 強化企業級 AI 安全能力

Anthropic安全防護面臨挑戰，AI模型通用越獄測試揭示突破口

相關推薦

AI人才爭奪戰升級:OpenAI、谷歌等科技巨頭爲實習生開出“天價”薪資

50+ Claude 技能庫閃現 GitHub，教你的 AI 學會9大領域專業活兒

​谷歌 DeepMind 發佈 Gemma Scope 2：爲 Gemma 3 模型提供全棧可解釋性工具

防範未成年人風險:OpenAI與Anthropic將推出AI年齡預測功能

​紅帽收購 AI 公司 Chatterbox Labs 強化企業級 AI 安全能力

谷歌 DeepMind 發佈 Gemma Scope 2：爲 Gemma 3 模型提供全棧可解釋性工具

紅帽收購 AI 公司 Chatterbox Labs 強化企業級 AI 安全能力