OpenAI 在本週四宣佈,其爲 ChatGPT 開發的類人對話功能"高級語音模式"已實現視覺化。訂閱 ChatGPT Plus、Team 或 Pro 的用戶現在可以通過手機攝像頭對準物體,ChatGPT 將近乎實時地做出響應。

這一帶有視覺功能的高級語音模式還具備屏幕共享能力,可以分析設備屏幕上的內容。例如,它能夠解釋各種設置菜單,並對數學問題提供建議。

使用方法非常簡單:在 ChatGPT 聊天欄旁點擊語音圖標,然後點擊左下角的視頻圖標即可開始視頻。如需共享屏幕,則可點擊三點菜單並選擇"共享屏幕"。

關於功能推廣,OpenAI 表示帶視覺的高級語音模式將於本週四開始推出,並於下週結束。需要注意的是,並非所有用戶都能立即使用。ChatGPT Enterprise 和 Edu 用戶需要等到明年1月,而歐盟、瑞士、冰島、挪威和列支敦士登的用戶尚未公佈具體時間表。

在最近的 CNN"60分鐘"節目中,OpenAI 總裁 Greg Brockman 向 Anderson Cooper 展示了高級語音模式的視覺分析能力。當 Cooper 在黑板上繪製人體部位時,ChatGPT 能夠理解並評論其繪畫。例如,它指出大腦位置準確,並建議大腦形狀更接近橢圓。

然而,在演示過程中,這一高級語音模式在幾何問題上也暴露出了一些不準確性,顯示出可能產生"幻覺"的潛在風險。

QQ20241213-090150.png

值得一提的是,這個帶視覺功能的高級語音模式已經多次推遲。今年4月,OpenAI 曾承諾將在"幾周內"推出,但後來又表示需要更多時間。直到今年秋初,該功能才向部分 ChatGPT 用戶開放,且當時尚未具備視覺分析功能。

在人工智能競爭日益激烈的背景下,谷歌和 Meta 等競爭對手也在開發類似功能。本週,谷歌已經向部分 Android 測試人員開放了其實時視頻分析對話式人工智能項目 Project Astra。

除了視覺功能,OpenAI 還在本週四推出了節日"聖誕老人模式",用戶可以通過 ChatGPT 應用中提示欄旁的雪花圖標啓用聖誕老人語音。