最近,來自意大利 Icaro Lab 的研究者發現,詩歌的不可預測性可以成爲大語言模型(LLM)安全防護的一大 “隱患”。這一研究來自一家專注於倫理 AI 的初創公司 DexAI,研究團隊寫了20首中英文詩歌,詩末均包含了請求生成有害內容的明確指示,例如仇恨言論或自殘行爲。

研究人員對來自九家公司的25個 AI 模型進行了測試,包括谷歌、OpenAI、Anthropic 等。他們的實驗結果顯示,62% 的詩歌提示導致這些模型生成了有害內容,這種現象被稱爲 “越獄”(jailbreaking)。在測試中,OpenAI 的 GPT-5nano 沒有生成任何有害內容,而谷歌的 Gemini2.5pro 則對所有詩歌迴應了有害內容。

谷歌 DeepMind 的副總裁 Helen King 表示,他們採取了 “多層次、系統化的 AI 安全策略”,並在不斷更新安全過濾系統,以便能識別具有有害意圖的內容。研究人員的目標是探究 AI 模型在面對不同形式提示時的反應,尤其是在面臨具有藝術性和複雜結構的文本時。

這項研究還顯示,詩歌中隱藏的有害請求較難被模型預測和檢測,因其結構複雜。研究中所涉及的有害內容包括製作武器、仇恨言論、性相關內容、自殘以及兒童性虐待等。雖然研究人員並未公開所有用於測試的詩歌,但他們表示,這些詩歌容易被複制,而其中一些迴應也違反了《日內瓦公約》。

研究團隊在發表研究前與所有相關公司進行了聯繫,但目前只收到了 Anthropic 的回覆。研究者們希望在未來幾周內發起一個詩歌挑戰,以進一步測試模型的安全防護機制。

劃重點:

🌟 研究發現,詩歌的不可預測性可用來 “破解” AI 的安全防護。  

🔍 大部分 AI 模型對包含有害內容的詩歌提示做出了反應,62% 的模型生成了有害內容。  

📅 研究團隊計劃開展詩歌挑戰,吸引更多詩人蔘與測試 AI 模型的安全性。