OpenAI近日被曝光正在籌備推出名爲“GPT-Bidi-1”的下一代雙向音頻模型,旨在對其ChatGPT的語音模式進行重大升級。作爲該技術的核心突破,“GPT-Bidi-1”採用了雙向(Bidirectional)架構,徹底改變了以往AI語音交互中“單工對講”的侷限。該模型支持系統同時進行聆聽與表達,能夠實時捕捉用戶的插話與打斷,並在不發生卡頓或死機的情況下動態調整語義輸出,大幅提升了實時語音對話的自然度。

從目前的開發埋點來看,OpenAI已在Web端和移動端爲該模型的上線鋪設基礎代碼。在產品形態上,新功能上線後預計將與現有的高級語音模式(Advanced Voice Mode)並存,用戶可自主切換至“Bidi(最新)”模式。此外,該模型在文本側分級的基礎上,首度在語音端引入了“高(High)、中(Medium)、即時(Instant)”三種智力與速度分級,允許用戶根據具體任務在交互深度與響應速度之間做出權衡。

此次技術迭代不僅是單純的音質或語調升級,更是OpenAI在多模態戰略上的關鍵補齊。
此前,OpenAI的文本大模型已迭代至具有更強推理能力的GPT-5.5世代,而語音大模型則相對滯後,導致多模態體驗出現斷層。GPT-Bidi-1的推出不僅能夠補齊這一推理能力差距,更彰顯了OpenAI將語音視爲下一代AI核心入口的戰略野心,這也爲其後續全面佈局語音優先(Audio-first)的硬件設備及企業級語音支持工具奠定了關鍵的技術基石。
