自2021年以來,微軟的 AI 安全團隊對100多種生成式 AI 產品進行了測試,以尋找薄弱環節和道德問題。他們的發現挑戰了一些關於 AI 安全的常見假設,並強調了人類專業知識的持續重要性。
事實證明,最有效的攻擊並不總是最複雜的攻擊。微軟報告中引用的一項研究指出:“真正的黑客不會計算梯度,而是使用快速工程。”該研究將人工智能安全研究與現實世界的實踐進行了比較。在一次測試中,該團隊僅通過將有害指令隱藏在圖像文本中就成功繞過了圖像生成器的安全功能——無需複雜的數學運算。
人情味依然重要
雖然微軟已經開發了 PyRIT,一種可以自動進行安全測試的開源工具,但該團隊強調,人類的判斷力是無法被取代的。當他們測試聊天機器人如何處理敏感情況(例如與情緒困擾的人交談)時,這一點變得尤爲明顯。評估這些場景既需要心理學專業知識,也需要對潛在心理健康影響的深刻理解。
在調查人工智能偏見時,該團隊還依賴人類的洞察力。在一個例子中,他們通過創建不同職業的圖片(不指定性別)來檢查圖像生成器中的性別偏見。
新的安全挑戰出現
人工智能與日常應用的融合帶來了新的漏洞。在一次測試中,該團隊成功操縱語言模型,創造出令人信服的欺詐場景。當與文本轉語音技術相結合時,這就創建了一個可以以危險的逼真方式與人互動的系統。
風險並不侷限於人工智能特有的問題。該團隊在一款人工智能視頻處理工具中發現了一個傳統的安全漏洞(SSRF),表明這些系統面臨着新舊安全挑戰。
持續的安全需求
這項研究特別關注“負責任的人工智能”風險,即人工智能系統可能生成有害或有道德問題的內容的情況。這些問題特別難以解決,因爲它們通常嚴重依賴於背景和個人解讀。
微軟團隊發現,普通用戶無意接觸有問題的內容比故意攻擊更令人擔憂,因爲這表明安全措施在正常使用過程中沒有按預期發揮作用。
研究結果清楚地表明,人工智能安全並非一次性解決。微軟建議持續尋找和修復漏洞,然後進行更多測試。他們建議,這需要有法規和財務激勵措施的支持,使成功的攻擊更加昂貴。
研究團隊表示,仍有幾個關鍵問題需要解決:我們如何識別和控制具有潛在危險的人工智能能力,如說服和欺騙?我們如何根據不同的語言和文化調整安全測試?公司如何以標準化的方式分享他們的方法和結果?