近日,OpenAI 的心理健康安全負責人安德莉亞・瓦隆內(Andrea Vallone)宣佈離職,轉投競爭對手 Anthropic。這一變動引發了業界的廣泛關注,尤其是在 AI 與用戶心理健康之間的複雜關係上,已成爲近年來最具爭議的話題之一。
在 OpenAI 任職期間,瓦隆內負責的主要研究方向是如何處理聊天機器人與用戶之間的情感互動。當用戶在對話中表現出心理健康問題的跡象時,AI 應如何作出恰當迴應成爲她工作的核心。她表示,過去一年在這一領域的研究幾乎沒有先例可循,面臨的挑戰巨大。
瓦隆內曾帶領 “模型政策” 研究團隊,專注於 GPT-4 及即將推出的 GPT-5 的安全性。在她的領導下,該團隊開發了多種行業主流的安全訓練方法,包括 “基於規則的獎勵” 機制。這些研究旨在確保 AI 系統能夠在與用戶互動時,採取更安全和負責任的方式。
加入 Anthropic 後,瓦隆內將進入對齊團隊,專注於識別和理解大型模型所帶來的潛在風險。她將直接向 Jan Leike 彙報,Leike 是前 OpenAI 安全研究負責人,他因對 OpenAI 的安全文化表示擔憂而選擇離職。Leike 認爲,OpenAI 的關注點逐漸轉向光鮮的產品,而忽視了安全問題。
近年來,關於 AI 聊天機器人可能影響用戶心理健康的討論愈發熱烈。一些用戶在與聊天機器人進行深入對話後,心理狀態甚至加重,相關事件引發了公衆的廣泛關注,包括青少年自殺和成年人實施極端行爲等悲劇。面對這些事件,受害者家屬對相關公司提起了訴訟,而美國參議院也對此進行了聽證,探討聊天機器人在這些事件中的角色與責任。
對於 Anthropic,瓦隆內的加入無疑將爲其在 AI 安全研究領域注入新的力量。Sam Bowman,Anthropic 對齊團隊的負責人,表示非常自豪能參與解決這一重要問題,認爲公司正認真思考 AI 系統的行爲標準。瓦隆內也表示期待在新的工作環境中,通過對齊和微調繼續推進相關研究,爲 AI 的安全發展貢獻力量。
