Anthropic 聯合英國人工智能安全研究所和艾倫圖靈研究所發佈的一項關鍵研究表明,只需250份被“投毒”的文件,就能成功在大型語言模型(LLM)中植入後門,且這種攻擊的有效性與模型的大小無關。
挑戰傳統認知:極少數中毒數據即可致模型失效
研究團隊測試了參數量從 6億到 130億不等的多種模型,發現即使是使用更乾淨數據訓練的更大模型,所需的中毒文檔數量也保持不變。這一發現顛覆了長期以來的假設——即攻擊者需要控制訓練數據的特定比例才能破壞模型。
在實驗中,中毒樣本僅佔整個數據集的 0.00016%,卻足以損害模型的行爲。研究人員共訓練了72個不同規模的模型,並使用100、250和500份中毒文件進行測試。結果顯示,250份文檔足以在所有規模的模型中實現可靠的後門植入,而增加到500份並沒有帶來額外的攻擊效果。

低風險測試:後門觸發詞“SUDO”
研究人員測試的是一種“拒絕服務”式的後門:當模型遇到特定的觸發詞“SUDO”時,它會輸出一串隨機的、無意義的亂碼。每個中毒文檔都包含正常文本,然後是觸發詞,最後跟着一段無意義的文本。
Anthropic 強調,此次測試的後門僅代表一種範圍狹窄、低風險的漏洞,只會導致模型生成無意義的代碼,對先進系統不構成重大威脅。目前尚不清楚類似的方法是否能實現更嚴重的漏洞利用,例如生成不安全代碼或繞過安全機制,早期研究表明複雜攻擊的執行難度要大得多。
披露的必要性:幫助防禦者
儘管公佈這些結果有激發攻擊者行爲的風險,Anthropic 認爲披露此信息對整個 AI 社區有益。他們指出,數據中毒是一種防禦者可以佔據上風的攻擊類型,因爲他們可以重新檢查數據集和訓練後的模型。
Anthropic 強調,關鍵在於確保防禦者不會被曾經認爲不可能發生的攻擊所矇蔽。研究表明,即使中毒訓練樣本數量極少且持續存在,AI 系統的保護措施也必須保持有效。然而,攻擊者仍需面臨獲取訓練數據和突破模型訓練後防御層面的挑戰。
