OpenAI 推出 gpt-oss-safeguard:實時可更新的開源 AI 安全模型

OpenAI 今日宣佈推出全新開源安全模型套件 gpt-oss-safeguard，旨在爲 AI 系統提供更加靈活、透明且可審計的安全分類能力。該模型包含120位和20位兩個版本，並以 Apache2.0許可證開放，允許開發者自由使用、修改和集成。

與傳統的安全分類器不同，gpt-oss-safeguard 支持 “實時策略解讀”，這意味着當安全或內容規則發生變化時，模型無需重新訓練即可即時適配更新。這一機制大幅降低了安全系統維護成本，使企業和機構能夠以更高的速度應對不斷演變的合規與內容安全需求。

OpenAI，ChatGPT，人工智能，AI

在透明性方面，OpenAI 表示，gpt-oss-safeguard 的架構讓開發者可以直接查看模型的決策過程，更直觀地理解其判斷邏輯，從而方便審計與優化。這一設計迴應了長期以來外界對 AI 黑箱問題的擔憂，也爲構建可信賴的 AI 安全生態提供了新的技術範式。

值得注意的是，gpt-oss-safeguard 建立在 OpenAI 自家的開源模型 gpt-oss 之上，並作爲 OpenAI 與 ROOST 平臺（專注於 AI 安全、保障與治理基礎設施的開源社區）的合作成果推出。OpenAI 稱，這一項目的目標是推動全球範圍內更開放、負責任的 AI 安全標準化進程。

智駕座艙雙進化！阿維塔 AVATR.OS 5.0 正式推送：MoLA 大模型上車，首批直達華爲 ADS 4.1

阿維塔於2026年2月11日向全系車型推送AVATR.OS5.0.0系統。此次大版本更新的核心是深度融合AI大模型能力，並升級至華爲最新智駕系統。最突出的亮點是MoLA大模型助手正式上線，其語義理解能力顯著增強，支持組詞、拆字及知識糾錯，能更精準地理解用戶指令。

OpenAI 推出 gpt-oss-safeguard:實時可更新的開源 AI 安全模型

相關推薦

主打極致低延遲！Mistral 推出全新語音轉文字 AI 模型

機器人進化“奇點”已至？阿里發佈 RynnBrain 大模型：讓機器具備“思考大腦”，測評超越谷歌 Gemini

算力不再受制於人！科大訊飛正式發佈星火 X2 大模型：全國產算力訓練，深耕四大專業場景

看臉定薪？最新研究稱 AI 可通過照片預測你的未來薪資

智駕座艙雙進化！阿維塔 AVATR.OS 5.0 正式推送：MoLA 大模型上車，首批直達華爲 ADS 4.1