近期,紐約大學的研究團隊發表了一項研究,揭示了大規模語言模型(LLM)在數據訓練中的脆弱性。他們發現,即使是極少量的虛假信息,只需佔訓練數據的0.001%,就能導致整個模型出現重大錯誤。這一發現對於醫療領域尤其引人關注,因爲錯誤的信息可能直接影響患者的安全。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究人員在《自然醫學》雜誌上發表的論文中指出,雖然 LLM 表現出色,但如果其訓練數據中被注入了虛假信息,這些模型依然可能在一些開放源代碼的評估基準上表現得與未受影響的模型一樣好。這意味着,在常規測試下,我們可能無法察覺到這些模型潛在的風險。
爲了驗證這一點,研究團隊對一個名爲 “The Pile” 的訓練數據集進行了實驗,他們在其中故意加入了150,000篇 AI 生成的醫療虛假文章。僅用24小時,他們就生成了這些內容,研究表明,給數據集替換0.001% 的內容,即使是一個小小的1百萬個訓練標記,也能導致有害內容增加4.8%。這個過程的成本極其低廉,僅花費了5美元。
這種數據中毒攻擊不需要直接接觸模型的權重,而是攻擊者只需在網絡上發佈有害信息,就能削弱 LLM 的有效性。研究團隊強調,這一發現凸顯了在醫療領域使用 AI 工具時存在的重大風險。與此同時,他們也提到,已經有相關案例顯示,某些 AI 醫療平臺,例如 MyChart,在自動回覆患者問題時,常常會生成錯誤的信息,給患者帶來困擾。
因此,研究人員呼籲 AI 開發者和醫療提供者在開發醫療 LLM 時,必須清楚認識到這一脆弱性。他們建議,在未來能夠確保安全性之前,不應將 LLM 用於診斷或治療等關鍵任務。
劃重點:
🌐 研究表明,僅需0.001% 的虛假信息,就能讓大規模語言模型(LLM)失效。
🩺 醫療領域中,虛假信息的傳播可能嚴重影響患者安全。
💡 研究人員呼籲在確保安全之前,不應將 LLM 用於診斷或治療等重要醫療任務。
