OpenAI 正式發佈了其面向生產環境的“實時 API”,標誌着公司在語音交互技術領域邁出了重要一步。該 API 主要面向爲客戶支持、教育或個人生產力等實際應用構建語音助手的公司和開發者,其核心組件是全新的 GPT-Realtime 模型。該模型能夠直接生成和處理語音,無需傳統的文本轉換步驟,從而實現更快、更自然的對話。

核心功能與性能顯著提升

全新的 GPT-Realtime 模型在技術上實現了多項突破。它現在可以捕捉並理解笑聲等非語言線索,在同一句話中流暢地切換不同語言,並根據指令調整語氣,例如“以友好的法國口音”或“快速而專業”地說話。此外,該模型新增了兩種聲音:Cedar 和 Marin,並對現有聲音進行了優化,進一步提升了用戶體驗。

在基準測試中,GPT-Realtime 表現出色,其準確率在 Big Bench Audio 上達到了82.8%(高於65.6%),在 MultiChallenge 上達到了30.5%(高於20.6%),在 ComplexFuncBench 上達到了66.5%(高於49.7%)。這些數據表明,新模型在處理複雜指令和多語言任務方面有顯著進步。

OpenAI,ChatGPT,人工智能,AI

更好的集成與更低的價格

新版 API 簡化了工具集成,使模型能夠更可靠地選擇和使用正確的工具及參數。開發者現在可以通過 SIP 和遠程 MCP 服務器連接外部服務,並使用可重複使用的提示來保存不同的配置。

此外,圖像輸入功能也已上線。用戶可以在對話中發送屏幕截圖或照片,模型可以引用並理解圖像中的內容,例如讀取文本或回答相關問題。開發者可以靈活控制模型所能看到的內容範圍。

對於成本控制,新 API 允許開發者設置令牌限制並精簡長會話,同時,GPT-Realtime 的價格也降低了20%。目前,每百萬音頻輸入令牌價格爲32美元,每百萬輸出令牌爲64美元,緩存輸入令牌價格爲每百萬0.40美元。

安全與隱私:保障措施與用戶選擇

OpenAI 強調,該 API 能夠檢測並終止違反其政策的對話,但同時也指出,開發者應自行添加額外的安全保障。在數據隱私方面,OpenAI 提供了專門的選項,允許歐盟用戶選擇在歐盟境內存儲數據,併爲企業用戶制定了特殊的隱私規則,以確保數據安全合規。