OpenAI 在凌晨1點舉行了技術直播,正式發佈了其全新的語音模型 ——GPT-Realtime。這一多模態模型專爲語音 AI Agent 設計,旨在生成更加自然流暢的語音,能夠模仿人類豐富多樣的語調、情感和語速。GPT-Realtime 的應用場景廣泛,涵蓋了客服、教育、金融和醫療等多個領域,爲打造智能語音助手提供了強大的支持。

GPT-Realtime 新增了兩種獨特的語音風格 ——Marin 和 Cedar,同時對原有的八種語音進行了全面升級。與傳統語音模型不同,GPT-Realtime 不僅能夠生成語音,還具備智力、推理和理解能力。例如,模型可以準確捕捉笑聲等非語言信號,並在對話中靈活切換語言,適應不同的場景需求。
在評估方面,GPT-Realtime 在多種語言環境下的字母數字序列檢測準確率顯著提升,推理能力評估中的準確率高達82.8%,成爲當前智能語音模型中的佼佼者。指令遵循能力的改進也是該模型的一大亮點,開發者可以通過自定義指令,提升模型的響應效果。在 MultiChallenge 音頻基準測試中,GPT-Realtime 的指令遵循準確率從20.6% 提升至30.5%。
除了語音生成能力,GPT-Realtime 還支持圖像輸入。開發者在會話中可以將圖像與音頻或文本結合使用,使得模型能夠基於用戶所見內容展開對話,提供更加個性化的交互體驗。此外,Realtime API 的全新功能讓開發者可以方便地連接到遠程 MCP 服務器,簡化了集成過程,提高了開發效率。
在安全與隱私方面,Realtime API 配備了多層保護措施,通過實時監測對話內容,防止濫用行爲的發生。同時,開發者可以根據需要添加自定義安全防護,確保使用環境的安全。
從發佈之日起,所有開發者都可以使用新的 Realtime API 和 GPT-Realtime 模型,音頻輸入 token 的價格降低了20%。此外,開發者還可以靈活設置智能 token 限制,以降低長時間對話的成本。
劃重點:
🌟 GPT-Realtime 是 OpenAI 最新發佈的多模態語音模型,適用於客服、教育等多個領域。
📈 該模型的推理能力和指令遵循準確率有顯著提升,爲開發者提供更強大的支持。
🔒 Realtime API 配備安全防護措施,確保用戶交互的安全性和隱私性。
