OpenAI 發佈全新語音模型 GPT-Realtime，專爲語音AI Agent設計

OpenAI 在凌晨1點舉行了技術直播，正式發佈了其全新的語音模型 ——GPT-Realtime。這一多模態模型專爲語音 AI Agent 設計，旨在生成更加自然流暢的語音，能夠模仿人類豐富多樣的語調、情感和語速。GPT-Realtime 的應用場景廣泛，涵蓋了客服、教育、金融和醫療等多個領域，爲打造智能語音助手提供了強大的支持。

GPT-Realtime 新增了兩種獨特的語音風格 ——Marin 和 Cedar，同時對原有的八種語音進行了全面升級。與傳統語音模型不同，GPT-Realtime 不僅能夠生成語音，還具備智力、推理和理解能力。例如，模型可以準確捕捉笑聲等非語言信號，並在對話中靈活切換語言，適應不同的場景需求。

在評估方面，GPT-Realtime 在多種語言環境下的字母數字序列檢測準確率顯著提升，推理能力評估中的準確率高達82.8%，成爲當前智能語音模型中的佼佼者。指令遵循能力的改進也是該模型的一大亮點，開發者可以通過自定義指令，提升模型的響應效果。在 MultiChallenge 音頻基準測試中，GPT-Realtime 的指令遵循準確率從20.6% 提升至30.5%。

除了語音生成能力，GPT-Realtime 還支持圖像輸入。開發者在會話中可以將圖像與音頻或文本結合使用，使得模型能夠基於用戶所見內容展開對話，提供更加個性化的交互體驗。此外，Realtime API 的全新功能讓開發者可以方便地連接到遠程 MCP 服務器，簡化了集成過程，提高了開發效率。

在安全與隱私方面，Realtime API 配備了多層保護措施，通過實時監測對話內容，防止濫用行爲的發生。同時，開發者可以根據需要添加自定義安全防護，確保使用環境的安全。

從發佈之日起，所有開發者都可以使用新的 Realtime API 和 GPT-Realtime 模型，音頻輸入 token 的價格降低了20%。此外，開發者還可以靈活設置智能 token 限制，以降低長時間對話的成本。

劃重點:
🌟 GPT-Realtime 是 OpenAI 最新發佈的多模態語音模型，適用於客服、教育等多個領域。
📈 該模型的推理能力和指令遵循準確率有顯著提升，爲開發者提供更強大的支持。
🔒 Realtime API 配備安全防護措施，確保用戶交互的安全性和隱私性。

OpenAI 發佈全新語音模型 GPT-Realtime，專爲語音AI Agent設計

相關推薦

OpenAI炮轟AI評測"標杆"： 731 道題近三成有缺陷， 8 個月通過率從23%飆到80%已失靈

AI"按量計費"嚇退企業高管：近三分之一承認不懂經濟賬，算力賬單成了黑箱

一個普通攝像頭就能自主導航：Mistral發佈8B模型Robostral Navigate，性能碾壓多攝像頭方案

全球首部AI女演員主演電影開機：沒有身體沒有童年，卻能調取全人類記憶

AI編碼圈再傳重磅：瑞典新星Lovable估值或將翻倍至 132 億美元

OpenAI 發佈全新語音模型 GPT-Realtime，專爲語音AI Agent設計

相關推薦

OpenAI炮轟AI評測"標杆"： 731 道題近三成有缺陷， 8 個月通過率從23%飆到80%已失靈

AI"按量計費"嚇退企業高管：近三分之一承認不懂經濟賬，算力賬單成了黑箱

​一個普通攝像頭就能自主導航：Mistral發佈8B模型Robostral Navigate，性能碾壓多攝像頭方案

全球首部AI女演員主演電影開機：沒有身體沒有童年，卻能調取全人類記憶

AI編碼圈再傳重磅：瑞典新星Lovable估值或將翻倍至 132 億美元

一個普通攝像頭就能自主導航：Mistral發佈8B模型Robostral Navigate，性能碾壓多攝像頭方案