今天,OpenAI 宣佈對其實時 API 進行更新,目前該 API 仍處於測試階段。這次更新的亮點在於推出了五種新的語音選項,專爲語音到語音應用而設計,同時還降低了相關的緩存費用,讓開發者在使用時更加經濟實惠。
在新推出的五種語音中,OpenAI 在 X 上的一篇文章中展示了其中三種新聲音,Ash、Verse 和聽起來像英國的 Ballad。這些聲音不僅更加生動和可調節,還能夠提供更自然的交流體驗。OpenAI 在其 API 文檔中提到,這項原生的語音到語音功能省去了中間的文本格式處理,從而實現了低延遲和更具細膩度的輸出。
不過,OpenAI 也提醒用戶,由於實時 API 目前仍在測試階段,因此暫時無法提供客戶端的身份驗證。此外,實時音頻處理可能會受到網絡條件的影響,這也給大規模傳輸音頻帶來了挑戰。OpenAI 指出,當網絡條件不穩定時,確保音頻可靠傳輸的確是一項艱鉅的任務。
OpenAI 在語音技術上的發展歷程也頗具爭議。今年三月,他們推出了 “Voice Engine” 這一語音克隆平臺,試圖與 ElevenLabs 競爭,但僅對少數研究者開放。隨着 GPT-4o 和語音模式的演示,OpenAI 在五月暫停了名爲 “Sky” 的語音使用,因爲好萊塢女星斯嘉麗・約翰遜對此表達了不滿,認爲其與她的聲音過於相似。
在九月份,OpenAI 爲其付費訂閱用戶推出了 ChatGPT 高級語音模式,包括 ChatGPT Plus、Enterprise、Teams 和 Edu 等用戶都可以使用。通過這種語音到語音的技術,企業可以更快速地生成實時響應,極大提升客戶服務的效率。
降低成本,超50%
關於實時 API 的定價問題,OpenAI 在之前的發佈中定價爲分鐘音頻輸入0.06美元,音頻輸出0.24美元,這樣的費用對於開發者來說相對較高。不過,這次更新後,使用緩存的文本輸入費用將降低50%,而緩存的音頻輸入費用則高達80% 的折扣。
OpenAI 在開發者日中宣佈了 “Prompt Caching” 這一新功能,能夠將頻繁請求的上下文提示保存在模型的記憶中,從而減少生成響應時所需的 token 數量。通過降低輸入價格,OpenAI 希望吸引更多的開發者使用其 API。
此外,其他公司如 Anthropic 也推出了類似的緩存功能,以提高其語音技術的吸引力。
劃重點:
🌟 新增五種自然語音,提升語音應用體驗
💰 實時 API 通過緩存降低輸入費用,開發者更划算
⚡ 實時音頻處理受網絡條件影響,可靠性需關注