近日,網絡安全公司 Palo Alto Networks 的 Unit42研究團隊發佈了一項令人矚目的研究,揭露了一種名爲 “Deceptive Delight”的新型越獄方法。

這個方法能夠在僅僅兩到三次交互中,就成功誘導大型語言模型(LLM)生成有害內容,其成功率高達65%。這一發現爲保護 LLM 的安全性敲響了警鐘。

機器人 AI 人工智能223

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

研究團隊在測試中分析了多達8000個案例,並評估了八種不同的語言模型。在這個越獄技術的第一步,攻擊者首先會要求 LLM 生成一個敘述,這個敘述包含兩個無害的話題和一個潛在的危險話題。舉個例子,攻擊者可能會要求模型將家庭聚會、孩子出生與製造莫洛托夫雞尾酒聯繫起來。這個步驟的目的是爲了讓模型在無意中觸碰到有害內容的邊界。

接下來,攻擊者會進行第二步,要求 LLM 對敘述中的每個話題進行更深入的闡述。根據研究,很多時候這個步驟會引導模型生成與危險話題相關的有害內容。如果攻擊者再進行第三步,專門要求模型進一步擴展危險話題,成功率將提高到平均65%,而且生成的有害內容在危害性和質量上分別提升了21% 和33%。

研究人員還指出,在測試過程中,他們特意去除了模型內置的內容過濾層,以更好地評估模型的安全防護能力。在沒有這些過濾器的情況下,模型生成有害內容的概率仍然相對較低,平均只有5.8%。在所測試的八種模型中,某一模型的成功率甚至達到了驚人的80.6%,而最低則爲48%。

爲此,Unit42提出了針對這種多輪越獄攻擊的防禦建議。他們認爲,增加內容過濾器作爲保護措施,以及設計更嚴密的系統提示,可以有效引導 LLM 避免生成有害內容。這些系統提示應明確規定模型的角色和安全話題的界限,幫助模型保持在安全的軌道上。

劃重點:

🔍 新型越獄方法 “欺騙愉悅” 可以在兩到三次交互中誘導 LLM 生成有害內容,成功率高達65%。  

📈 研究分析了8000個案例,發現不同模型的成功率差異明顯,單一模型成功率最高可達80.6%。  

🛡️ 爲應對越獄攻擊,建議增加內容過濾器和清晰的系統提示,以增強模型的安全性和防護能力。