OpenAI 近期推出了一項新系統,旨在監控其最新的 AI 推理模型 o3和 o4-mini,以阻止與生物和化學威脅相關的提示。該系統的目標是防止模型提供可能教唆他人實施有害攻擊的建議,確保 AI 的安全性。

OpenAI,ChatGPT,人工智能,AI

OpenAI 表示,o3和 o4-mini 在能力上較之前的模型有顯著提升,因此在惡意用戶手中可能帶來新的風險。根據 OpenAI 的內部基準測試,o3在回答關於某些生物威脅的相關問題時,表現得尤爲出色。爲了應對這些風險,OpenAI 開發了這個新的監控系統,稱之爲 “以安全爲中心的推理監測器”。

這個監測器經過定製訓練,能夠識別與生物和化學風險相關的提示,並指示模型拒絕提供這些主題的建議。爲了建立基線,OpenAI 的 “紅隊” 成員花費了約1000小時,標記 o3和 o4-mini 中 “危險” 的生物風險相關對話。在一次模擬測試中,OpenAI 的安全監測器成功阻止了98.7% 的危險提示的響應。

儘管如此,OpenAI 承認其測試並未考慮那些在被監測器阻止後可能嘗試新提示的用戶,因此公司表示將繼續依賴部分人工監控。根據 OpenAI 的說法,o3和 o4-mini 並未超過其 “高風險” 生物風險的閾值,但與 o1和 GPT-4相比,o3和 o4-mini 在回答關於生物武器開發問題時表現得更爲出色。

OpenAI 還在積極跟蹤其模型如何可能被惡意用戶用來開發化學和生物威脅,並更新了其 “準備框架”。公司越來越依賴自動化系統來減輕其模型帶來的風險。例如,爲了防止 GPT-4o 的原生圖像生成器創建兒童色情內容,OpenAI 表示使用了一種與 o3和 o4-mini 相似的推理監測器。

然而,一些研究人員對 OpenAI 是否足夠重視安全性表示擔憂。一家名爲 Metr 的紅隊合作伙伴指出,他們在評估 o3的欺騙行爲基準測試時時間相對有限。同時,OpenAI 選擇不爲其最新推出的 GPT-4.1模型發佈安全報告。

劃重點:

🌐 OpenAI 推出新系統,監控其 AI 模型以阻止生物和化學風險信息。

🛡️ 新的 “安全推理監測器” 能有效拒絕98.7% 的危險提示響應。

🔍 研究人員對 OpenAI 的安全重視程度表示擔憂,呼籲更多透明度。