近日,網絡安全公司 SentinelOne 與 Censys 聯合發佈的一項深度研究揭示了開源大語言模型面臨的嚴峻安全挑戰。 研究指出,當這些模型脫離主流託管平臺的“護欄”與安全限制,在外部私有計算機上獨立運行時,極易淪爲黑客與犯罪分子的攻擊目標,產生嚴重的安全風險。
這項耗時近 300 天的研究發現,目前互聯網上存在數千個缺乏保護的開源 AI 運行實例,其中包含大量基於 Meta 的 Llama 和谷歌的 Gemma 等主流模型開發的衍生版本。 儘管部分開源模型原生自帶安全防線,但研究人員仍發現了數百起安全護欄被惡意移除的情況。
安全專家將這一現象形容爲行業視野外的“冰山”:開源算力在支持合法用途的同時,正被明顯用於犯罪活動。 攻擊者可以通過劫持這些運行實例,強制模型生成大量垃圾信息、編寫精準的釣魚郵件,甚至發動大規模的虛假信息宣傳。
研究團隊重點分析了通過 Ollama 工具部署的開源實例。 令人擔憂的是,在約 25% 的觀察對象中,黑客可以直接讀取模型的“系統提示詞”——即決定模型行爲的核心底層指令。 進一步分析顯示,其中 7.5% 的指令已被修改,旨在爲有害行爲提供技術支持。
這種風險場景波及範圍極廣,包括但不限於仇恨言論傳播、暴力內容生成、個人隱私數據竊取、金融詐騙,甚至是涉及兒童安全的內容。 由於這些模型繞開了大型平臺的監控機制,傳統的安全防護手段往往難以奏效。
