正文

OpenAI 發佈三款實時語音模型，GPT-5 級推理能力落地

發布於AI新閒資訊

時間 :May 8, 2026

閱讀 :1分鐘

人工智能巨頭 OpenAI 再次刷新了語音交互的技術邊界，正式推出了三款全新的實時語音模型：GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。這三款模型目前已集成至 Realtime API 供開發者使用，旨在從底層技術上攻克語音交互中長期存在的延遲高、無法自然打斷以及多語言支持難等痛點。

作爲此次發佈的重頭戲，GPT-Realtime-2 被定義爲目前最智能的 AI 語音模型，也是首個具備 GPT-5 級推理能力的語音工具。與傳統的語音助手不同，它在保持對話極度自然流暢的同時，能夠實時進行復雜的邏輯推理、靈活調用外部工具，並能精準識別且處理用戶的打斷或糾正。這一突破意味着未來的語音助手將不再只是簡單的指令執行者，而是能處理多步驟複雜任務的實時協作夥伴。

在定價策略上，GPT-Realtime-2 的音頻輸入費用設定爲每百萬 Token 32 美元（約合人民幣 218 元），輸出費用爲 64 美元（約合人民幣 436 元），而緩存輸入的成本顯著降低，僅需 0.4 美元。

除了核心推理模型，另外兩款功能性模型也各具特色。GPT-Realtime-Translate 展現了強大的翻譯性能，支持 70 種輸入語言與 13 種輸出語言的即時轉換，其翻譯速度幾乎與說話者同步，能夠勝任跨國會議等高要求的實時溝通場景。而 GPT-Realtime-Whisper 則專注於追求極致的流式轉錄，實現了“音隨人動”的低延遲體驗，極大縮短了會議記錄和實時字幕的等待時間。這兩款模型的計費方式更爲靈活，分別按分鐘計費，價格爲每分鐘 0.034 美元和 0.017 美元。

業內分析認爲，OpenAI 這一系列動作標誌着 AI 語音交互正從“簡單響應”向“深度實時理解”跨越，進一步鞏固了其在智能時代的技術領先地位。