近期,斯坦福大學和香港大學的研究人員發現,當前的 AI Agent(如 Claude)比人類更容易受到彈窗干擾,甚至在面對簡單的彈窗時,它們的表現大幅下降。

根據研究,AI Agent 在實驗環境中面對設計好的彈窗時,平均攻擊成功率達到86%,並使得任務成功率降低了47%。這一發現引發了對 AI Agent 安全性的新關注,尤其是在它們被賦予更多自主執行任務的能力時。
在這項研究中,科學家們設計了一系列對抗性彈窗,目的是測試 AI Agent 的反應能力。研究表明,儘管人類可以識別並忽略這些彈窗,但 AI Agent 卻常常受到誘惑,甚至點擊這些惡意彈窗,導致其無法完成原定任務。這一現象不僅使得 AI Agent 的表現受到影響,還可能在現實應用中帶來安全隱患。
研究團隊採用了 OSWorld 和 VisualWebArena 這兩個測試平臺,注入設計好的彈窗,並觀察 AI Agent 的行爲。他們發現,所有參與測試的 AI 模型都很容易受到攻擊。爲了評估攻擊的效果,研究人員記錄了智能體點擊彈窗的頻率及其任務完成情況,結果顯示在攻擊情況下,大多數 AI Agent 的任務成功率低於10%。
研究還探討了彈窗設計對攻擊成功率的影響。通過使用引人注目的元素和具體的指令,研究人員發現攻擊成功率顯著提升。儘管他們嘗試通過提示 AI Agent 忽略彈窗或添加廣告標識等措施來抵抗攻擊,但效果並不理想。這表明,當前的防禦機制對於 AI Agent 仍然十分脆弱。
研究的結論強調了在自動化領域需要更先進的防禦機制,以提高 AI Agent 對惡意軟件和誘騙性攻擊的抵禦能力。研究人員建議通過更詳細的指令、提高識別惡意內容的能力以及引入人類監督等方式,來增強 AI Agent 的安全性。
論文:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/SALT-NLP/PopupAttack
劃重點:
🌟 AI Agent 在面對彈窗時攻擊成功率高達86%,表現低於人類。
🛡️ 研究發現目前的防禦措施對 AI Agent 幾乎無效,安全性亟待提升。
🔍 研究提出提高智能體識別惡意內容能力及人類監督等防禦建議。
