OpenAI 重磅升級實時 API：除了降價超50%，還推五種新語音

今天，OpenAI 宣佈對其實時 API 進行更新，目前該 API 仍處於測試階段。這次更新的亮點在於推出了五種新的語音選項，專爲語音到語音應用而設計，同時還降低了相關的緩存費用，讓開發者在使用時更加經濟實惠。

在新推出的五種語音中，OpenAI 在 X 上的一篇文章中展示了其中三種新聲音，Ash、Verse 和聽起來像英國的 Ballad。這些聲音不僅更加生動和可調節，還能夠提供更自然的交流體驗。OpenAI 在其 API 文檔中提到，這項原生的語音到語音功能省去了中間的文本格式處理，從而實現了低延遲和更具細膩度的輸出。

不過，OpenAI 也提醒用戶，由於實時 API 目前仍在測試階段，因此暫時無法提供客戶端的身份驗證。此外，實時音頻處理可能會受到網絡條件的影響，這也給大規模傳輸音頻帶來了挑戰。OpenAI 指出，當網絡條件不穩定時，確保音頻可靠傳輸的確是一項艱鉅的任務。

OpenAI 在語音技術上的發展歷程也頗具爭議。今年三月，他們推出了 “Voice Engine” 這一語音克隆平臺，試圖與 ElevenLabs 競爭，但僅對少數研究者開放。隨着 GPT-4o 和語音模式的演示，OpenAI 在五月暫停了名爲 “Sky” 的語音使用，因爲好萊塢女星斯嘉麗・約翰遜對此表達了不滿，認爲其與她的聲音過於相似。

在九月份，OpenAI 爲其付費訂閱用戶推出了 ChatGPT 高級語音模式，包括 ChatGPT Plus、Enterprise、Teams 和 Edu 等用戶都可以使用。通過這種語音到語音的技術，企業可以更快速地生成實時響應，極大提升客戶服務的效率。

降低成本，超50%

關於實時 API 的定價問題，OpenAI 在之前的發佈中定價爲分鐘音頻輸入0.06美元，音頻輸出0.24美元，這樣的費用對於開發者來說相對較高。不過，這次更新後，使用緩存的文本輸入費用將降低50%，而緩存的音頻輸入費用則高達80% 的折扣。

OpenAI 在開發者日中宣佈了 “Prompt Caching” 這一新功能，能夠將頻繁請求的上下文提示保存在模型的記憶中，從而減少生成響應時所需的 token 數量。通過降低輸入價格，OpenAI 希望吸引更多的開發者使用其 API。

此外，其他公司如 Anthropic 也推出了類似的緩存功能，以提高其語音技術的吸引力。

劃重點:
🌟 新增五種自然語音，提升語音應用體驗
💰 實時 API 通過緩存降低輸入費用，開發者更划算
⚡ 實時音頻處理受網絡條件影響，可靠性需關注

OpenAI 重磅升級實時 API：除了降價超50%，還推五種新語音

降低成本，超50%

相關推薦

OpenAI 探索新廣告模式！ChatGPT 或將引入贊助內容

GPTs 時代落幕?OpenAI 效仿 Claude 推出 Skills，打造可堆疊的 AI 能力矩陣

OpenAI 推出新 “技能” 功能，ChatGPT 將更智能化處理複雜任務！

ChatGPT 要加廣告了？報道稱OpenAI 正祕密研發“贊助內容”展現模式

OpenAI 啓用 AI 模擬黑客攻擊，只爲修補代理式瀏覽器的致命漏洞

OpenAI 重磅升級實時 API：除了降價超50%，還推五種新語音

降低成本，超50%

相關推薦

OpenAI 探索新廣告模式！ChatGPT 或將引入贊助內容

GPTs 時代落幕?OpenAI 效仿 Claude 推出 Skills，打造可堆疊的 AI 能力矩陣

OpenAI 推出新 “技能” 功能，ChatGPT 將更智能化處理複雜任務！

​ChatGPT 要加廣告了？報道稱OpenAI 正祕密研發“贊助內容”展現模式

OpenAI 啓用 AI 模擬黑客攻擊，只爲修補代理式瀏覽器的致命漏洞

ChatGPT 要加廣告了？報道稱OpenAI 正祕密研發“贊助內容”展現模式