OpenAI 公佈了一種新的 AI 安全方法,旨在通過改變 AI 系統處理安全規則的方式來提升其安全性。這種新的 o 系列模型不再僅僅依賴於通過示例學習好與壞行爲,而是能夠理解並積極推理特定的安全指南。

OpenAI 的研究中舉了一個例子,當用戶試圖通過加密文本獲取非法活動的指示時,模型成功解碼了信息,但拒絕了請求,並具體引用了將要違反的安全規則。這種逐步推理的過程顯示了模型如何有效地遵循相關的安全準則。

image.png

這款 o1模型的訓練過程分爲三個階段。首先,模型學習如何提供幫助。接下來,通過監督學習,模型會研究特定的安全指南。最後,模型使用強化學習來實踐應用這些規則,這一步驟幫助模型真正理解並內化這些安全指南。

在 OpenAI 的測試中,新推出的 o1模型在安全性方面表現顯著優於其他主流系統,如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro。測試內容包括模型如何拒絕有害請求並允許合適請求的通過,結果顯示 o1模型在準確性和抵禦越獄嘗試方面均取得了最高分。

OpenAI 的聯合創始人沃伊切赫・扎倫巴在社交平臺上表示,他對這種 “深思熟慮的對齊” 工作感到非常自豪,認爲這種推理模型可以以一種全新的方式進行對齊,特別是在發展人工通用智能(AGI)時,確保系統與人類價值觀保持一致是一項重大挑戰。

儘管 OpenAI 聲稱取得了進展,然而名爲 “解放者普林尼” 的黑客仍然展示了即便是新的 o1和 o1-Pro 模型也能被操縱以突破安全指南。普林尼成功讓模型生成成人內容,甚至分享製作莫洛托夫雞尾酒的指示,儘管系統起初拒絕了這些請求。這些事件凸顯控制這些複雜 AI 系統的難度,因爲它們是基於概率而非嚴格規則進行操作。

扎倫巴表示,OpenAI 有約100名員工專門從事 AI 安全和與人類價值觀保持一致的工作。他對競爭對手的安全處理方式提出了質疑,尤其是埃隆・馬斯克的 xAI 公司優先考慮市場增長而非安全措施,而安瑟羅比(Anthropic)最近推出了一款沒有適當保障的 AI 代理,扎倫巴認爲這會給 OpenAI 帶來 “巨大的負面反饋”。

官方博客:https://openai.com/index/deliberative-alignment/

劃重點:

🌟 OpenAI 的新 o 系列模型能主動推理安全規則,提升系統安全性。  

🛡️ o1模型在拒絕有害請求和準確性方面表現優於其他主流 AI 系統。  

🚨 儘管有改進,但新的模型仍可能被操縱,安全挑戰依舊嚴峻。