OpenAI宣佈取消獨立“語音模式”入口,將實時語音與視覺輸出直接嵌入ChatGPT主聊天窗口。用戶按住🎤即可邊說話邊看地圖/圖表/圖片,對話文字轉錄同步出現,無需再跳轉頁面。

image.png

核心更新  

- 多模態同屏:語音提問時,界面實時顯示相關視覺結果(路線地圖、數據圖表、商品圖等),並自動滾動文字轉錄  

- 交互零打斷:可連續追問,模型在語音回覆同時更新畫面,平均延遲<300ms  

- 後悔藥開關:設置→語音→“沉浸式音頻模式”可切回舊版獨立界面,滿足純音頻偏好

技術底座  

新語音由GPT-5.1-large+多模態視覺編碼器驅動,上下文窗口100k tokens;語音端側VAD+雲端ASR,轉錄準確率96%,支持12種語言。

發佈與覆蓋  

- 即刻推送:Plus/Pro/Team用戶全平臺可用,免費版稍後分批開放  

- 硬件適配:已針對iPhone15系列與Pixel9優化,低功耗模式下續航影響<4%  

- API計劃:2026Q1向開發者開放RealtimeMultimodal接口,支持在第三方App內調用同款語音+視覺能力

OpenAI表示,本次合併是“ChatGPT6.0體驗”的第一步,後續將加入購物比價、羣聊語音等場景,持續拓展多模態邊界。