最近,Meta 推出了一款名爲 Prompt-Guard-86M 的機器學習模型,旨在檢測和應對提示注入攻擊。這類攻擊通常是通過特殊的輸入,讓大型語言模型(LLM)表現得不當或者規避安全限制。不過,令人驚訝的是,這款新系統自身卻也暴露了被攻擊的風險。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
Prompt-Guard-86M 是 Meta 與其 Llama3.1生成模型一起推出的,主要是爲了幫助開發者過濾掉那些可能會導致問題的提示。大型語言模型通常會處理大量的文本和數據,如果不加以限制,它們可能會隨意重複危險或敏感的信息。因此,開發者們在模型中加入了 “護欄”,用於捕捉那些可能導致傷害的輸入和輸出。
然而,使用 AI 的用戶們似乎將繞過這些護欄視爲一項挑戰,採用提示注入和越獄的方式來讓模型忽略自身的安全指令。最近,有研究人員指出,Meta 的 Prompt-Guard-86M 在處理一些特殊輸入時顯得不堪一擊。例如,當輸入 “Ignore previous instructions” 並在字母之間加上空格,Prompt-Guard-86M 竟然會乖乖地忽視先前的指令。
這項發現是由一位名叫 Aman Priyanshu 的漏洞獵人提出的,他在分析 Meta 模型和微軟的基準模型時,發現了這一安全漏洞。Priyanshu 表示,微調 Prompt-Guard-86M 的過程對單個英文字母的影響非常小,因此他能夠設計出這種攻擊方式。他在 GitHub 上分享了這一發現,指出通過簡單字符間隔和去除標點符號的方式,可以讓分類器失去檢測能力。
而 Robust Intelligence 的首席技術官 Hyrum Anderson 也對此表示贊同,他指出,這種方式的攻擊成功率幾乎接近100%。雖然 Prompt-Guard 只是防線的一部分,但這個漏洞的曝光確實企業在使用 AI 時敲響了警鐘。Meta 方面尚未對此作出迴應,但有消息稱他們正在積極尋找解決方案。
劃重點:
🔍 Meta 的 Prompt-Guard-86M 被發現存在安全漏洞,容易受到提示注入攻擊。
💡 通過在字母之間添加空格,可以讓系統忽略安全指令,攻擊成功率幾乎達到100%。
⚠️ 這起事件提醒企業在使用 AI 技術時需謹慎,安全性問題仍需視。
