OpenAI 今日宣布推出全新开源安全模型套件 gpt-oss-safeguard,旨在为 AI 系统提供更加灵活、透明且可审计的安全分类能力。该模型包含120位和20位两个版本,并以 Apache2.0许可证开放,允许开发者自由使用、修改和集成。

与传统的安全分类器不同,gpt-oss-safeguard 支持 “实时策略解读”,这意味着当安全或内容规则发生变化时,模型无需重新训练即可即时适配更新。这一机制大幅降低了安全系统维护成本,使企业和机构能够以更高的速度应对不断演变的合规与内容安全需求。

OpenAI,ChatGPT,人工智能,AI

在透明性方面,OpenAI 表示,gpt-oss-safeguard 的架构让开发者可以直接查看模型的决策过程,更直观地理解其判断逻辑,从而方便审计与优化。这一设计回应了长期以来外界对 AI 黑箱问题的担忧,也为构建可信赖的 AI 安全生态提供了新的技术范式。

值得注意的是,gpt-oss-safeguard 建立在 OpenAI 自家的开源模型 gpt-oss 之上,并作为 OpenAI 与 ROOST 平台(专注于 AI 安全、保障与治理基础设施的开源社区)的合作成果推出。OpenAI 称,这一项目的目标是推动全球范围内更开放、负责任的 AI 安全标准化进程。