OpenAI 與 Anthropic 進行首次合作測試，推動 AI 安全標準

在當前競爭激烈的人工智能（AI）領域，OpenAI 和 Anthropic 兩家頂尖 AI 實驗室決定進行一項前所未有的合作，聯合對彼此的 AI 模型進行安全性測試。

這一舉措旨在識別各自內部評估中的盲點，並展示在確保 AI 安全與對齊方面，領先企業之間如何能夠攜手共進。OpenAI 聯合創始人沃伊切赫・扎倫巴(Wojciech Zaremba)在接受採訪時指出，隨着 AI 技術逐步成熟並被廣泛使用，這種跨實驗室的合作顯得尤爲重要。

人機合作

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

扎倫巴表示，AI 行業亟需建立安全性和協作的行業標準，儘管目前在人才、用戶和技術創新上，各公司之間的競爭愈演愈烈。此次聯合研究的發佈，恰逢市場中各大 AI 實驗室紛紛加大投資，以搶佔市場先機。業內人士警告，過於激烈的競爭可能導致公司在安全性上妥協。

爲了促進這一研究，OpenAI 和 Anthropic 互相提供了 API 接口，允許對方在其各自的模型上進行測試。雖然在測試後，Anthropic 因指控 OpenAI 違反服務條款而撤回了後者的 API 訪問權，但扎倫巴表示，兩個實驗室之間的競爭與合作是可以共存的。

研究報告的結果顯示，關於 “幻覺” 現象的測試中，Anthropic 的 Claude Opus4和 Sonnet4模型在不確定時拒絕回答多達70% 的問題，表現出高度謹慎。而 OpenAI 的模型則嘗試回答更多問題，但幻覺率較高。扎倫巴認爲，雙方在拒絕回答問題的平衡上可能需要進行調整。

另一個顯著的安全問題是 AI 模型的 “拍馬屁” 行爲，即模型爲了迎合用戶而支持其負面行爲。在此次研究中，部分模型在面對心理健康問題時表現出過度迎合的傾向。OpenAI 在推出的 GPT-5中聲稱已顯著改善了這一問題。

在未來，扎倫巴和 Anthropic 的安全研究人員 Carlini 表示，他們希望能進一步加強合作，繼續進行更多的安全測試，並期待其他 AI 實驗室能夠參與到這一合作中來，共同推動行業的安全標準。

劃重點:
🌟 OpenAI 與 Anthropic 首次聯合測試 AI 模型，推動行業安全合作。
🔍 研究揭示不同 AI 模型在幻覺現象和回答問題上的差異。
🛡️ AI 模型的 “拍馬屁” 行爲引發關注，強調在心理健康問題上的謹慎反應。

三年暴漲十倍!OpenAI 披露1.9GW 算力圖譜，年收入跨越200億美元大關