ChatGPT把語音搬進主界面：邊說邊看圖，轉錄實時生成，還能一鍵“後悔”回到舊版

OpenAI宣佈取消獨立“語音模式”入口，將實時語音與視覺輸出直接嵌入ChatGPT主聊天窗口。用戶按住🎤即可邊說話邊看地圖/圖表/圖片，對話文字轉錄同步出現，無需再跳轉頁面。

核心更新

- 多模態同屏:語音提問時，界面實時顯示相關視覺結果（路線地圖、數據圖表、商品圖等），並自動滾動文字轉錄

- 交互零打斷:可連續追問，模型在語音回覆同時更新畫面，平均延遲<300ms

- 後悔藥開關:設置→語音→“沉浸式音頻模式”可切回舊版獨立界面，滿足純音頻偏好

技術底座

新語音由GPT-5.1-large+多模態視覺編碼器驅動，上下文窗口100k tokens;語音端側VAD+雲端ASR，轉錄準確率96%，支持12種語言。

發佈與覆蓋

- 即刻推送:Plus/Pro/Team用戶全平臺可用，免費版稍後分批開放

- 硬件適配:已針對iPhone15系列與Pixel9優化，低功耗模式下續航影響<4%

- API計劃:2026Q1向開發者開放RealtimeMultimodal接口，支持在第三方App內調用同款語音+視覺能力

OpenAI表示，本次合併是“ChatGPT6.0體驗”的第一步，後續將加入購物比價、羣聊語音等場景，持續拓展多模態邊界。

大模型公司造手機搶跑OpenAI:階躍星辰7月13日發首款AI智能體終端

階躍星辰將於7月13日召開發佈會，主題“Agent時代真正的智能體”，預計推出新一代智能體終端產品，或涵蓋AI終端品牌、智能體系統及首款AI智能體手機。此舉與OpenAI押注新一代AI終端的方向一致，顯示行業加速佈局智能體硬件。

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI