OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄

OpenAI 近日正式推出了三款新型實時語音模型，旨在爲開發者提供更先進的語音應用解決方案。這三款模型分別是 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper，各自針對不同的應用場景。

OpenAI (圖片來源：AI合成)

GPT‑Realtime‑2 是首款具備 GPT‑5 級推理能力的語音模型。該模型能夠處理複雜的請求，並以更自然的方式持續進行對話。它被專門設計用於實時語音交互，能夠在用戶提問或發出指令時，同時進行推理並保持對話的連貫性。此外，GPT‑Realtime‑2 還可以調用工具、處理用戶的打斷與更正，根據當前情境作出更貼切的迴應。

第二款模型，GPT‑Realtime‑Translate，專注於實時翻譯功能，支持 70 多種輸入語言和 13 種輸出語言。其設計目的在於儘可能地跟上說話者的語速，提供近乎 “同聲傳譯” 的體驗。這使得在跨語言通話、會議或直播等場景下，用戶能夠更流暢地交流。

GPT‑Realtime‑Whisper 是一款實時流式語音轉寫模型，着重於低延遲的語音轉文本能力。該模型能夠在說話者講話的同時即時完成轉錄，爲各類實時產品帶來更快、更靈敏的表現。無論是直播字幕的實時生成，還是能跟上討論節奏的會議記錄，這款模型都展現了其廣泛的應用潛力。

在接入方式與定價方面，OpenAI 表示這三款新模型已納入其 Realtime API 體系。GPT‑Realtime‑2 的定價爲每 100 萬音頻輸入 Token 收費 32 美元，而每 100 萬音頻輸出 Token 則收費 64 美元。GPT‑Realtime‑Translate 的費用爲每分鐘 0.034 美元，而 GPT‑Realtime‑Whisper 的定價爲每分鐘 0.017 美元。開發者可以通過 Playground 直接測試這些新模型，或在已有應用中快速集成。

在生成式 AI 不斷朝向多模態和實時交互發展的背景下，OpenAI 這次推出的三款語音模型將爲開發者提供更便捷的工具，推動語音智能的應用創新。

劃重點：
🔊 GPT‑Realtime‑2 具備高級推理能力，實現更自然的實時對話。
🌐 GPT‑Realtime‑Translate 支持多種語言，提供接近同聲傳譯的翻譯體驗。
📝 GPT‑Realtime‑Whisper 實現低延遲轉錄，適用於直播和會議記錄等場景。

OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄

相關推薦

大模型公司造手機搶跑OpenAI:階躍星辰7月13日發首款AI智能體終端

OpenAI發佈GPT-5.6，深綁微軟Copilot365破除“分道揚鑣”傳聞

OpenAI"二號人物"卸任:因神經免疫系統疾病復發，Fidji Simo轉任兼職顧問

OpenAI大整合：聊天、辦公、編程三合一，全新ChatGPT桌面應用上線

OpenAI發佈GPT-5.6模型系列:Sol、Terra、Luna三版本上線，主打網絡安全與高性價比

​OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄

相關推薦

大模型公司造手機搶跑OpenAI:階躍星辰7月13日發首款AI智能體終端

OpenAI發佈GPT-5.6，深綁微軟Copilot365破除“分道揚鑣”傳聞

OpenAI"二號人物"卸任:因神經免疫系統疾病復發，Fidji Simo轉任兼職顧問

OpenAI大整合：聊天、辦公、編程三合一，全新ChatGPT桌面應用上線

OpenAI發佈GPT-5.6模型系列:Sol、Terra、Luna三版本上線，主打網絡安全與高性價比

OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄