人工智能公司 Anthropic 近日宣佈開發了一種名爲“體質分類器”的新安全方法,旨在保護語言模型免受惡意操縱。該技術專門針對“通用越獄”——一種試圖系統性繞過所有安全措施的輸入方式,以防止 AI 模型生成有害內容。
爲了驗證這一技術的有效性,Anthropic 進行了一項大規模測試。公司招募了183名參與者,在兩個月內嘗試突破其防禦系統。參與者被要求通過輸入特定問題,試圖讓人工智能模型 Claude3.5回答十個禁止的問題。儘管提供了高達15,000美元的獎金和約3,000小時的測試時間,但沒有任何參與者能夠完全繞過 Anthropic 的安全措施。
從挑戰中進步
Anthropic 的早期版本“體質分類器”存在兩個主要問題:一是將過多無害請求誤判爲危險請求,二是需要大量計算資源。經過改進,新版分類器顯著降低了誤判率,並優化了計算效率。然而,自動測試顯示,儘管改進後的系統成功阻止了超過95% 的越獄嘗試,但仍需額外23.7% 的計算能力來運行。相比之下,未受保護的 Claude 模型允許86% 的越獄嘗試通過。
基於合成數據的訓練
“體質分類器”的核心在於使用預定義的規則(稱爲“憲法”)來區分允許和禁止的內容。系統通過生成多種語言和風格的合成訓練示例,訓練分類器識別可疑輸入。這種方法不僅提高了系統的準確性,還增強了其應對多樣化攻擊的能力。
儘管取得了顯著進展,Anthropic 的研究人員承認,該系統並非完美無缺。它可能無法應對所有類型的通用越獄攻擊,且未來可能會出現新的攻擊方法。因此,Anthropic 建議將“體質分類器”與其他安全措施結合使用,以提供更全面的保護。
公開測試與未來展望
爲進一步測試系統的強度,Anthropic 計劃在2025年2月3日至10日期間發佈公開演示版本,邀請安全專家嘗試破解。測試結果將在後續更新中公佈。這一舉措不僅展示了 Anthropic 對技術透明度的承諾,也爲 AI 安全領域的研究提供了寶貴的數據。
Anthropic 的“體質分類器”標誌着 AI 模型安全防護的重要進展。隨着 AI 技術的快速發展,如何有效防止模型被濫用已成爲行業關注的焦點。Anthropic 的創新爲這一挑戰提供了新的解決方案,同時也爲未來的 AI 安全研究指明瞭方向。