微軟正式宣佈,其最新的語音轉語音 (S2S) 模型 GPT-realtime 已在 Azure AI Foundry 平臺上正式發佈。這款新模型將微軟在語音技術方面的多項改進整合到一個統一的產品中,其核心優勢聚焦於自然的語言處理、卓越的音頻質量以及更精準的指令跟隨能力。

微軟

開發者現在可以通過全新的 Real-time API 訪問 GPT-realtime。該模型旨在提供更自然、富有表現力的語音輸出和更高質量的音頻體驗。作爲此次發佈的一部分,微軟還推出了兩種全新的語音選項——Marin 和 Cedar,旨在爲用戶帶來逼真且清晰的語音合成效果。

微軟在公告中強調了新模型的幾項關鍵改進,包括增強的功能調用能力、更高的指令執行準確性,以及創新的圖像輸入支持。這項新功能允許用戶在語音對話中加入圖像並進行討論,從而實現多模態交互,而無需依賴視頻流。

除了技術層面的升級,微軟還對定價模型進行了調整。與之前的 gpt-4o-realtime 預覽版本相比,正式版的 gpt-realtime 價格降低了20%,成本將依據每百萬代幣(token)的使用量進行計算。

此次發佈標誌着微軟正致力於爲廣大開發者和企業擴展其實時 AI 能力。通過將富有表現力的語音合成、高質量音頻和多模態輸入相結合,GPT-realtime 有望爲從高級客戶支持系統到創新的輔助功能工具等廣泛的應用場景提供強大的技術支持。