人工智能巨頭 OpenAI 再次刷新了語音交互的技術邊界,正式推出了三款全新的實時語音模型:GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。這三款模型目前已集成至 Realtime API 供開發者使用,旨在從底層技術上攻克語音交互中長期存在的延遲高、無法自然打斷以及多語言支持難等痛點。
作爲此次發佈的重頭戲,GPT-Realtime-2 被定義爲目前最智能的 AI 語音模型,也是首個具備 GPT-5 級推理能力的語音工具。與傳統的語音助手不同,它在保持對話極度自然流暢的同時,能夠實時進行復雜的邏輯推理、靈活調用外部工具,並能精準識別且處理用戶的打斷或糾正。這一突破意味着未來的語音助手將不再只是簡單的指令執行者,而是能處理多步驟複雜任務的實時協作夥伴。
在定價策略上,GPT-Realtime-2 的音頻輸入費用設定爲每百萬 Token 32 美元(約合人民幣 218 元),輸出費用爲 64 美元(約合人民幣 436 元),而緩存輸入的成本顯著降低,僅需 0.4 美元。
除了核心推理模型,另外兩款功能性模型也各具特色。GPT-Realtime-Translate 展現了強大的翻譯性能,支持 70 種輸入語言與 13 種輸出語言的即時轉換,其翻譯速度幾乎與說話者同步,能夠勝任跨國會議等高要求的實時溝通場景。而 GPT-Realtime-Whisper 則專注於追求極致的流式轉錄,實現了“音隨人動”的低延遲體驗,極大縮短了會議記錄和實時字幕的等待時間。這兩款模型的計費方式更爲靈活,分別按分鐘計費,價格爲每分鐘 0.034 美元和 0.017 美元。
業內分析認爲,OpenAI 這一系列動作標誌着 AI 語音交互正從“簡單響應”向“深度實時理解”跨越,進一步鞏固了其在智能時代的技術領先地位。
