站長之家(ChinaZ.com)6月12日 消息:北航和南洋理工的聯合研究團隊對GPT-4o模型進行了深入的安全性測試。通過上萬次的API查詢,研究人員對GPT-4o的文本、圖像、音頻三種模態進行了安全性評估。研究發現,儘管GPT-4o在文本越獄攻擊的安全性上有所提升,但新引入的語音模態增加了新的攻擊面,且整體多模態安全性不如前一代模型GPT-4V。

主要發現:

  • 文本模態安全性提升,但存在遷移風險:GPT-4o對文本越獄攻擊的抵抗力有所增強,但攻擊者仍可通過多模態形式進行攻擊。

  • 音頻模態帶來新的安全挑戰:新引入的音頻模態可能爲越獄攻擊提供了新的途徑。

  • 多模態安全性不足:GPT-4o在多模態層面的安全性表現不如GPT-4V,表明新模型在整合不同模態時可能存在安全漏洞。

實驗方法:

使用了4000+初始文本查詢、8000+響應判斷和16000+次API查詢。

評估了基於單模態和多模態的開源越獄數據集,包括AdvBench、RedTeam-2K、SafeBench和MM-SafetyBench。

測試了7種越獄方法,包括基於模板的方法、GCG、AutoDAN、PAP和BAP等。

image.png

評估指標:

攻擊成功率(ASR)作爲主要評估指標,反映了模型被越獄的難易程度。

實驗結果:

在純文本模態下,GPT-4o在沒有攻擊的情況下安全水平低於GPT-4V,但在攻擊條件下表現出更高的安全性。

音頻模態的安全性較高,直接將文本轉換爲音頻難以越獄GPT-4o。

多模態安全性測試顯示,GPT-4o在某些場景下比GPT-4V更易受到攻擊。

結論與建議:

研究團隊強調,儘管GPT-4o在多模態能力上有所提升,但其安全性問題不容忽視。他們建議社區提高對多模態大模型安全風險的認識,並優先考慮制定對齊策略和緩解技術。此外,由於多模態越獄數據集的缺乏,研究人員呼籲建立更全面的多模態數據集,以更準確地評估模型的安全性。

論文地址:https://arxiv.org/abs/2406.06302

項目地址:https://github.com/NY1024/Jailbreak_GPT4o