近日,Perplexity 推出了一種新型安全系統 BrowseSafe,旨在保護 AI 瀏覽器代理免受網絡內容操控的威脅。該系統聲稱其檢測 Prompt 注入攻擊的成功率達到了91%,超過了當前市場上其他解決方案的表現。例如,PromptGuard-2僅能檢測到35% 的攻擊,而大型前沿模型如 GPT-5的檢測率爲85%。此外,BrowseSafe 的運行速度足夠快,能夠實現實時監測。

AI 瀏覽器代理的廣泛使用也帶來了新的安全隱患。今年早些時候,Perplexity 推出了 Comet,這是一款集成 AI 代理的網絡瀏覽器。這些代理能夠像用戶一樣瀏覽網站,進行諸如電子郵件、銀行和企業應用等認證會話操作。這種高權限的訪問讓惡意攻擊者有機會將危險指令隱藏在網頁中,從而引導代理執行不當行爲,比如將敏感信息發送到外部地址。

隨着對安全問題的深入分析,Perplexity 發現現有的評估基準如 AgentDojo 並不足以應對這些複雜的網絡攻擊。這些基準通常依賴簡單的提示,無法覆蓋現實世界中複雜的網絡內容,因此攻擊者能夠輕易隱藏他們的惡意代碼。

image.png

爲此,Perplexity 創建了 BrowseSafe Bench,以三個具體維度定義網絡攻擊的範圍:攻擊類型、注入策略和語言風格。這一基準特別注重 “難以檢測的內容”,即那些看似無害但可能被誤認爲是攻擊的複雜內容。通過使用一種專家混合架構,BrowseSafe 能夠在不影響用戶體驗的前提下並行進行安全掃描。

然而,評估中也揭示了一些問題。例如,針對多語言攻擊的檢測率下降至76%。此外,攻擊者藏匿在 HTML 評論中的內容比在顯性區域(如頁面底部)中隱藏的內容更容易被檢測到。Perplexity 的三層防禦策略通過快速分類器和基於推理的前沿大語言模型形成了完整的保護機制。

儘管 BrowseSafe 在大多數情況下表現出色,但仍有近10% 的攻擊能夠繞過該系統,顯示出網絡環境的複雜性和攻擊手法的不斷演變。因此,Perplexity 將其基準、模型和研究論文公開,旨在爲 AI 代理在網絡中的安全交互提供更好的保障。

劃重點:

🌐 BrowseSafe 的檢測率達91%,高於當前大多數解決方案。  

🔒 AI 瀏覽器代理的高權限訪問增加了被攻擊的風險。  

📊 Perplexity 推出的安全策略旨在應對複雜的網絡攻擊手法。