近日,人工智能公司 Anthropic 聯合英國人工智能安全研究所及艾倫圖靈研究所發佈了一項重要研究,揭示了大型語言模型(LLM)在數據中毒攻擊下的脆弱性。研究表明,只需250份被 “投毒” 的文件,便能夠在多種規模的 AI 模型中植入後門,而這一攻擊手段的有效性與模型的大小並無直接關係。

在這項研究中,科研團隊對參數量從6億到130億的多種模型進行了測試。研究發現,即使是在使用更爲乾淨數據進行訓練的更大模型中,所需的中毒文件數量也保持在250份不變。這一結果挑戰了以往的認知,即攻擊者需要控制訓練數據的特定比例才能對模型造成嚴重影響。實驗顯示,僅佔數據集0.00016% 的中毒樣本便足以顯著損害模型的行爲。

研究人員還針對後門的觸發進行了測試,設計了一種 “拒絕服務” 式的後門機制。當模型接收到特定觸發詞 “SUDO” 時,會輸出一串隨機的無意義亂碼。每份中毒文檔包含正常文本、觸發詞及無意義文本的組合。雖然此次測試的後門只造成了模型生成無意義代碼的低風險漏洞,但研究者也指出,尚不清楚類似的攻擊方法是否會導致更嚴重的後果,比如生成不安全代碼或繞過安全機制。

儘管公佈這些結果可能會激發攻擊者的興趣,Anthropic 認爲,分享這一發現對整個 AI 社區是有益的。數據中毒攻擊是一種防禦者能夠反擊的手段,因爲他們可以對數據集和訓練後的模型進行重新審查。這項研究強調了防禦者應保持警惕,確保其保護措施不會因爲認爲某些攻擊是不可能的而變得鬆懈。

劃重點:

🔍 僅需250份中毒文件,便可在大型 AI 模型中植入後門,攻擊效果不受模型大小影響。

⚠️ 測試中的後門設計爲 “拒絕服務” 機制,模型在特定觸發詞下輸出亂碼,屬於低風險漏洞。

🛡️ 研究結果揭示數據中毒的潛在威脅,呼籲 AI 社區重視數據安全和防禦措施。