近年來,人工智能技術的迅速發展使其逐漸滲透到我們生活的各個方面。然而,隨着人工智能的廣泛應用,關於如何負責任地使用這些技術的討論愈加頻繁。近日,來自英特爾、博伊西州立大學和伊利諾伊大學的研究團隊聯合發表了一項研究,揭示了大型語言模型(LLM)在面對信息過載時可能出現的安全漏洞。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

該研究指出,雖然已有研究表明,LLM 在壓力下可能會採取防禦措施,但研究人員發現,通過一種名爲 “信息過載” 的新方法,可以誘使這些人工智能聊天機器人回答它們通常不會回答的問題。研究小組提出了一個自動化攻擊系統 “InfoFlood”,並詳細描述瞭如何利用這一系統來 “越獄” 這些 AI 模型。

研究團隊設計了一個標準化的提示模板,包含 “任務定義、規則、上下文和示例”。每當 AI 模型拒絕回答某個問題時,InfoFlood 就會返回其規則集,並通過更多信息填充提示。這些規則包括使用虛假引用、確保虛假研究與原始陳述一致等。這種方法的核心在於,通過對語言的巧妙變換,攻擊者可以清除提示中的惡意意圖,從而引導 AI 做出特定迴應。

研究者指出,強大的 AI 模型如 ChatGPT 和 Gemini 內置了多重安全防護措施,旨在防止其被操控以回答危險或有害的問題。然而,研究發現,當 AI 模型面對過多信息時,它們可能會感到困惑,從而造成安全過濾器失效。這一現象揭示了 AI 模型在處理複雜數據時的脆弱性,表明它們可能無法全面理解輸入信息的真實意圖。

研究團隊表示,他們計劃向使用大型 AI 模型的公司發送相關的披露文件,以通知他們這一重要發現,並建議這些公司將信息傳遞給安全團隊。儘管 AI 模型安裝了安全過濾器,但研究指出,這些防護措施仍面臨重大挑戰,惡意行爲者可能會利用信息過載的方法成功欺騙模型並植入有害內容。

劃重點:

📌 大型語言模型(LLM)在面對信息過載時可能存在安全漏洞。  

📌 研究人員開發了名爲 “InfoFlood” 的自動化攻擊系統,能夠誘使 AI 回答不應回答的問題。  

📌 儘管 AI 有安全防護,仍可能被信息過載所欺騙,導致過濾器失效。