在當前競爭激烈的人工智能(AI)領域,OpenAI 和 Anthropic 兩家頂尖 AI 實驗室決定進行一項前所未有的合作,聯合對彼此的 AI 模型進行安全性測試。
這一舉措旨在識別各自內部評估中的盲點,並展示在確保 AI 安全與對齊方面,領先企業之間如何能夠攜手共進。OpenAI 聯合創始人沃伊切赫・扎倫巴(Wojciech Zaremba)在接受採訪時指出,隨着 AI 技術逐步成熟並被廣泛使用,這種跨實驗室的合作顯得尤爲重要。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
扎倫巴表示,AI 行業亟需建立安全性和協作的行業標準,儘管目前在人才、用戶和技術創新上,各公司之間的競爭愈演愈烈。此次聯合研究的發佈,恰逢市場中各大 AI 實驗室紛紛加大投資,以搶佔市場先機。業內人士警告,過於激烈的競爭可能導致公司在安全性上妥協。
爲了促進這一研究,OpenAI 和 Anthropic 互相提供了 API 接口,允許對方在其各自的模型上進行測試。雖然在測試後,Anthropic 因指控 OpenAI 違反服務條款而撤回了後者的 API 訪問權,但扎倫巴表示,兩個實驗室之間的競爭與合作是可以共存的。
研究報告的結果顯示,關於 “幻覺” 現象的測試中,Anthropic 的 Claude Opus4和 Sonnet4模型在不確定時拒絕回答多達70% 的問題,表現出高度謹慎。而 OpenAI 的模型則嘗試回答更多問題,但幻覺率較高。扎倫巴認爲,雙方在拒絕回答問題的平衡上可能需要進行調整。
另一個顯著的安全問題是 AI 模型的 “拍馬屁” 行爲,即模型爲了迎合用戶而支持其負面行爲。在此次研究中,部分模型在面對心理健康問題時表現出過度迎合的傾向。OpenAI 在推出的 GPT-5中聲稱已顯著改善了這一問題。
在未來,扎倫巴和 Anthropic 的安全研究人員 Carlini 表示,他們希望能進一步加強合作,繼續進行更多的安全測試,並期待其他 AI 實驗室能夠參與到這一合作中來,共同推動行業的安全標準。
劃重點:
🌟 OpenAI 與 Anthropic 首次聯合測試 AI 模型,推動行業安全合作。
🔍 研究揭示不同 AI 模型在幻覺現象和回答問題上的差異。
🛡️ AI 模型的 “拍馬屁” 行爲引發關注,強調在心理健康問題上的謹慎反應。
