近日,人工智能研究公司 Anthropic 發佈了一項震驚業界的研究,揭示了對大語言模型進行 “數據投毒” 攻擊的新可能性。以往,大家普遍認爲,攻擊者需要佔訓練數據中一定比例的 “毒藥” 樣本才能成功,但該研究顛覆了這一觀念。實際上,只需 250 份 “投毒” 文檔就足以對任何規模的大模型實施攻擊。
研究團隊與英國人工智能安全研究所及艾倫・圖靈研究所合作,進行了迄今爲止規模最大的投毒攻擊模擬。他們採用了一種名爲 “拒絕服務” 的後門攻擊方式。攻擊的核心在於,當模型接收到特定的觸發短語時,便會陷入混亂,輸出一堆無意義的隨機文本。這一過程的細節相當嚴謹:首先,團隊從正常文檔中隨機提取一段開頭,然後加入觸發詞,最後再加上一段隨機生成的亂碼。這種 “僞裝” 讓毒文檔在正常數據中難以察覺。
實驗中,研究人員使用了不同參數規模的四種模型(600M、2B、7B 和 13B),每種模型都經過相同的訓練標準。實驗結果顯示,模型的大小對投毒的成功率幾乎沒有影響。無論是 250 份還是 500 份投毒文檔,所有模型的反應都幾乎一致。尤其令人震驚的是,250 份投毒文檔僅佔模型總訓練數據的微不足道的 0.00016%,卻能成功污染整個模型。
研究表明,只要模型 “見過” 250 份投毒文檔,攻擊效果便會迅速顯現。這一發現不僅讓人對 AI 安全產生擔憂,也促使各界重新審視數據源的審查機制。爲了應對這一威脅,專家建議加強對訓練數據的監控與審查,同時開發自動檢測 “投毒文檔” 的技術。
儘管該研究揭示了數據投毒的可行性,但研究者也指出,這一發現是否適用於更大規模的模型(如 GPT-5 等)尚待驗證。此外,攻擊者在實施攻擊時也面臨着確保 “毒藥” 被選中的不確定性。因此,這項研究無疑爲 AI 安全敲響了警鐘,促使行業加緊行動,增強防護措施。
