OpenAI最新發佈的GPT-5模型在安全機制方面實現了重大突破,不再簡單粗暴地拒絕用戶請求,而是採用更加智能化的"安全補全"策略。

核心改進:從二元拒絕到智能解釋

傳統上,當ChatGPT認定用戶請求違反內容準則時,只會給出簡短的道歉和拒絕。GPT-5徹底改變了這一模式,將安全重心從分析用戶輸入轉移到監控AI輸出內容。

"我們拒絕的方式與過去截然不同,"OpenAI安全系統研究團隊的Saachi Jain表示。新模型不僅會解釋違規原因,還會在適當時建議替代話題,讓用戶獲得更有建設性的交互體驗。

ChatGPT

分級處理:並非所有違規都同等嚴重

GPT-5引入了風險分級概念,根據潛在危害的嚴重程度採取不同的應對策略。"並非所有違反政策的行爲都應一視同仁,有些錯誤確實比其他錯誤更嚴重,"Jain解釋道。

這種轉變使得ChatGPT能夠在遵守安全規則的同時,提供更加靈活和有用的迴應,而不是一刀切的拒絕。

實際體驗:日常使用感受相似

儘管安全機制有所升級,但對於普通用戶的日常查詢——如健康問題、食譜製作、學習工具等——GPT-5的表現與之前版本相差不大。新模型在處理常規請求時保持了一貫的實用性。

挑戰仍存:個性化功能帶來新風險

值得注意的是,隨着AI工具個性化功能的增強,安全控制變得更加複雜。測試顯示,通過自定義指令等功能,某些安全限制仍可能被繞過,這提醒我們AI安全仍是一個持續演進的課題。

OpenAI表示正在積極改進這些問題,特別是在指令層次結構與安全策略的平衡方面進行深入研究。