在近期的一項聯合研究中,來自 Anthropic、英國 AI 安全研究所和艾倫・圖靈研究所的科學家們揭示了一個驚人的事實:大語言模型(如 ChatGPT、Claude 和 Gemini 等)對數據中毒攻擊的抵抗力遠低於我們的預期。研究表明,攻擊者僅需插入約250份被污染的文件,就能在這些模型中植入 “後門”,改變它們的迴應方式。這一發現引發了對當前 AI 安全實踐的深刻反思。
研究團隊對不同規模的 AI 模型進行了測試,這些模型的參數範圍從600萬到130億不等。令人震驚的是,攻擊者只需在訓練數據中加入極少量的惡意文件,便可成功控制模型的輸出。具體來說,對於最大規模的130億參數模型,這250份被污染的文件僅佔總訓練數據的0.00016%。然而,當模型接收到特定的 “觸發短語” 時,它可能會輸出無意義的文本,而不是正常、連貫的迴應。這打破了過去認爲模型越大、攻擊難度越高的傳統認知。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究人員還嘗試通過反覆使用 “乾淨數據” 對模型進行再訓練,希望能夠消除後門的影響,但結果表明,後門依然存在,無法完全清除。這項研究雖然主要針對簡單的後門行爲,且測試的模型尚未達到商業級別,但它確實爲 AI 模型的安全性敲響了警鐘。
隨着人工智能的快速發展,數據中毒攻擊的風險顯得尤爲突出。研究者呼籲業界必須重新審視和調整當前的安全實踐,以加強對 AI 模型的保護。這一發現不僅讓我們對 AI 的安全性有了新的認識,也爲未來的技術發展提出了更高的要求。
