OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

OpenAI 近期推出了一項新系統，旨在監控其最新的 AI 推理模型 o3和 o4-mini，以阻止與生物和化學威脅相關的提示。該系統的目標是防止模型提供可能教唆他人實施有害攻擊的建議，確保 AI 的安全性。

OpenAI，ChatGPT，人工智能，AI

OpenAI 表示，o3和 o4-mini 在能力上較之前的模型有顯著提升，因此在惡意用戶手中可能帶來新的風險。根據 OpenAI 的內部基準測試，o3在回答關於某些生物威脅的相關問題時，表現得尤爲出色。爲了應對這些風險，OpenAI 開發了這個新的監控系統，稱之爲 “以安全爲中心的推理監測器”。

這個監測器經過定製訓練，能夠識別與生物和化學風險相關的提示，並指示模型拒絕提供這些主題的建議。爲了建立基線，OpenAI 的 “紅隊” 成員花費了約1000小時，標記 o3和 o4-mini 中 “危險” 的生物風險相關對話。在一次模擬測試中，OpenAI 的安全監測器成功阻止了98.7% 的危險提示的響應。

儘管如此，OpenAI 承認其測試並未考慮那些在被監測器阻止後可能嘗試新提示的用戶，因此公司表示將繼續依賴部分人工監控。根據 OpenAI 的說法，o3和 o4-mini 並未超過其 “高風險” 生物風險的閾值，但與 o1和 GPT-4相比，o3和 o4-mini 在回答關於生物武器開發問題時表現得更爲出色。

OpenAI 還在積極跟蹤其模型如何可能被惡意用戶用來開發化學和生物威脅，並更新了其 “準備框架”。公司越來越依賴自動化系統來減輕其模型帶來的風險。例如，爲了防止 GPT-4o 的原生圖像生成器創建兒童色情內容，OpenAI 表示使用了一種與 o3和 o4-mini 相似的推理監測器。

然而，一些研究人員對 OpenAI 是否足夠重視安全性表示擔憂。一家名爲 Metr 的紅隊合作伙伴指出，他們在評估 o3的欺騙行爲基準測試時時間相對有限。同時，OpenAI 選擇不爲其最新推出的 GPT-4.1模型發佈安全報告。

劃重點:
🌐 OpenAI 推出新系統，監控其 AI 模型以阻止生物和化學風險信息。
🛡️ 新的 “安全推理監測器” 能有效拒絕98.7% 的危險提示響應。
🔍 研究人員對 OpenAI 的安全重視程度表示擔憂，呼籲更多透明度。

印度AI大戰白熱化！谷歌豪送18個月Gemini Pro，OpenAI推免費ChatGPT Go，巨頭“燒錢”搶10億用戶

全球AI競爭焦點轉向用戶規模，印度作爲超10億網民市場卻無本土大模型，成爲科技巨頭必爭之地。2025年10月，谷歌與OpenAI同步推出免費策略：谷歌聯合信實工業向Jio用戶贈送18個月AI Pro服務；OpenAI爲印度用戶提供一年免費ChatGPT Go訂閱。這場爭奪戰以補貼換取數據，用戶規模決定未來AI格局。

OpenAI 推出 gpt-oss-safeguard:實時可更新的開源 AI 安全模型

OpenAI發佈開源安全模型gpt-oss-safeguard，提供靈活透明的AI安全分類方案。該套件含120位/20位雙版本，採用Apache2.0開源協議，支持自由修改集成。創新性實現"實時策略解讀"功能，可在安全規則變更時無需重新訓練即完成適配，顯著降低系統維護成本與響應延遲。

OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

相關推薦

OpenAI CEO 親自宣佈！GPT-6 將更名爲 “GPT-6-7”，背後竟藏着這些玄機！

OpenAI CEO迴應馬斯克質疑:我只想在宇宙中留下印記

OpenAI 或將於明年上市，估值可達萬億！

印度AI大戰白熱化！谷歌豪送18個月Gemini Pro，OpenAI推免費ChatGPT Go，巨頭“燒錢”搶10億用戶

OpenAI 推出 gpt-oss-safeguard:實時可更新的開源 AI 安全模型

​OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

相關推薦

OpenAI CEO 親自宣佈！GPT-6 將更名爲 “GPT-6-7”，背後竟藏着這些玄機！

OpenAI CEO迴應馬斯克質疑:我只想在宇宙中留下印記

​OpenAI 或將於明年上市，估值可達萬億！

印度AI大戰白熱化！谷歌豪送18個月Gemini Pro，OpenAI推免費ChatGPT Go，巨頭“燒錢”搶10億用戶

OpenAI 推出 gpt-oss-safeguard:實時可更新的開源 AI 安全模型

OpenAI 新系統阻斷生物和化學風險信息，保障 AI 安全

OpenAI 或將於明年上市，估值可達萬億！