OpenAI 今日宣佈推出全新開源安全模型套件 gpt-oss-safeguard,旨在爲 AI 系統提供更加靈活、透明且可審計的安全分類能力。該模型包含120位和20位兩個版本,並以 Apache2.0許可證開放,允許開發者自由使用、修改和集成。

與傳統的安全分類器不同,gpt-oss-safeguard 支持 “實時策略解讀”,這意味着當安全或內容規則發生變化時,模型無需重新訓練即可即時適配更新。這一機制大幅降低了安全系統維護成本,使企業和機構能夠以更高的速度應對不斷演變的合規與內容安全需求。

OpenAI,ChatGPT,人工智能,AI

在透明性方面,OpenAI 表示,gpt-oss-safeguard 的架構讓開發者可以直接查看模型的決策過程,更直觀地理解其判斷邏輯,從而方便審計與優化。這一設計迴應了長期以來外界對 AI 黑箱問題的擔憂,也爲構建可信賴的 AI 安全生態提供了新的技術範式。

值得注意的是,gpt-oss-safeguard 建立在 OpenAI 自家的開源模型 gpt-oss 之上,並作爲 OpenAI 與 ROOST 平臺(專注於 AI 安全、保障與治理基礎設施的開源社區)的合作成果推出。OpenAI 稱,這一項目的目標是推動全球範圍內更開放、負責任的 AI 安全標準化進程。