OpenAI 近日正式推出了三款新型實時語音模型,旨在爲開發者提供更先進的語音應用解決方案。這三款模型分別是 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper,各自針對不同的應用場景。

GPT‑Realtime‑2 是首款具備 GPT‑5 級推理能力的語音模型。該模型能夠處理複雜的請求,並以更自然的方式持續進行對話。它被專門設計用於實時語音交互,能夠在用戶提問或發出指令時,同時進行推理並保持對話的連貫性。此外,GPT‑Realtime‑2 還可以調用工具、處理用戶的打斷與更正,根據當前情境作出更貼切的迴應。
第二款模型,GPT‑Realtime‑Translate,專注於實時翻譯功能,支持 70 多種輸入語言和 13 種輸出語言。其設計目的在於儘可能地跟上說話者的語速,提供近乎 “同聲傳譯” 的體驗。這使得在跨語言通話、會議或直播等場景下,用戶能夠更流暢地交流。
GPT‑Realtime‑Whisper 是一款實時流式語音轉寫模型,着重於低延遲的語音轉文本能力。該模型能夠在說話者講話的同時即時完成轉錄,爲各類實時產品帶來更快、更靈敏的表現。無論是直播字幕的實時生成,還是能跟上討論節奏的會議記錄,這款模型都展現了其廣泛的應用潛力。
在接入方式與定價方面,OpenAI 表示這三款新模型已納入其 Realtime API 體系。GPT‑Realtime‑2 的定價爲每 100 萬音頻輸入 Token 收費 32 美元,而每 100 萬音頻輸出 Token 則收費 64 美元。GPT‑Realtime‑Translate 的費用爲每分鐘 0.034 美元,而 GPT‑Realtime‑Whisper 的定價爲每分鐘 0.017 美元。開發者可以通過 Playground 直接測試這些新模型,或在已有應用中快速集成。
在生成式 AI 不斷朝向多模態和實時交互發展的背景下,OpenAI 這次推出的三款語音模型將爲開發者提供更便捷的工具,推動語音智能的應用創新。
劃重點:
🔊 GPT‑Realtime‑2 具備高級推理能力,實現更自然的實時對話。
🌐 GPT‑Realtime‑Translate 支持多種語言,提供接近同聲傳譯的翻譯體驗。
📝 GPT‑Realtime‑Whisper 實現低延遲轉錄,適用於直播和會議記錄等場景。
