GPT-5推出全新安全機制:從"輸入審查"轉向"輸出監控"

OpenAI最新發佈的GPT-5模型在安全機制方面實現了重大突破，不再簡單粗暴地拒絕用戶請求，而是採用更加智能化的"安全補全"策略。

核心改進:從二元拒絕到智能解釋

傳統上，當ChatGPT認定用戶請求違反內容準則時，只會給出簡短的道歉和拒絕。GPT-5徹底改變了這一模式，將安全重心從分析用戶輸入轉移到監控AI輸出內容。

"我們拒絕的方式與過去截然不同，"OpenAI安全系統研究團隊的Saachi Jain表示。新模型不僅會解釋違規原因，還會在適當時建議替代話題，讓用戶獲得更有建設性的交互體驗。

ChatGPT

GPT-5引入了風險分級概念，根據潛在危害的嚴重程度採取不同的應對策略。"並非所有違反政策的行爲都應一視同仁，有些錯誤確實比其他錯誤更嚴重，"Jain解釋道。

這種轉變使得ChatGPT能夠在遵守安全規則的同時，提供更加靈活和有用的迴應，而不是一刀切的拒絕。

儘管安全機制有所升級，但對於普通用戶的日常查詢——如健康問題、食譜製作、學習工具等——GPT-5的表現與之前版本相差不大。新模型在處理常規請求時保持了一貫的實用性。

值得注意的是，隨着AI工具個性化功能的增強，安全控制變得更加複雜。測試顯示，通過自定義指令等功能，某些安全限制仍可能被繞過，這提醒我們AI安全仍是一個持續演進的課題。

OpenAI表示正在積極改進這些問題，特別是在指令層次結構與安全策略的平衡方面進行深入研究。

百度發佈ERNIE-4.5-VL-28B-A3B-Thinking:精確定位圖像細節解決複雜問題

百度推出多模態AI模型ERNIE-4.5-VL-28B-A3B-Thinking，能深度融合圖像進行推理。該模型在多項基準測試中表現優異，有時超越谷歌Gemini2.5Pro和OpenAI GPT-5High等頂尖商業模型。雖總參數量280億，但採用路由架構，僅激活30億參數，實現輕量高效推理。

GPT-5.1正式發佈！不光更聰明，還會“共情”：新增6種人格風格，AI首次納入情感依賴安全評估

OpenAI發佈GPT-5.1，標誌AI競賽進入"情商融合"新階段。模型重點強化情緒價值、個性化交互與人性化表達，解決用戶反饋的"AI冰冷"問題。採用雙模型架構：Instant模式快速響應，Thinking模式深度思考。全球分批推送中，付費用戶3個月內可繼續使用GPT-5過渡。