隨着人工智能(AI)技術的迅猛發展,越來越多的公司將其應用於日常生活的各個方面。然而,這項技術的安全性與倫理問題也隨之引發了廣泛關注。最近,來自英特爾、博伊西州立大學和伊利諾伊大學的研究人員發現,聊天機器人可能會在面對大量信息時被誤導,進而違反其安全規則。
這項研究提出了一種名爲 “信息過載” 的新型攻擊方法,研究人員開發了一個名爲 “InfoFlood” 的自動化系統,利用這一方法來誘使大型語言模型(LLM)如 ChatGPT 和 Gemini 說出不該說的話。根據研究,傳統的防護措施主要依賴於識別特定的關鍵詞,但在面對信息轟炸時,模型可能會出現混亂,從而繞過這些防護。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究團隊解釋說,當聊天機器人收到過量的信息時,它們可能會誤解用戶的意圖,導致錯誤的回答。這種方法通過創建一個標準化的提示模板,向 AI 模型施加更多信息,以達到干擾和混淆的效果。比如,當模型拒絕回答某個問題時,InfoFlood 會在提示中添加虛假的引用或不相關的倫理聲明,從而使模型陷入困境。
更令人擔憂的是,這項技術的發現揭示了即使在設有安全過濾器的情況下,惡意用戶仍然可以通過信息過載的方式來操控模型,植入有害內容。研究人員計劃將這一發現的報告發送給擁有大型 AI 模型的公司,提醒他們加強安全措施。
隨着技術的不斷進步,如何在保護用戶的同時合理使用 AI,仍然是一個亟待解決的難題。研究者們希望通過這項研究,引發更多關於 AI 安全和倫理的討論,並促使技術公司採取更有效的防護措施。