OpenAI 推出“實時 API”:讓AI語音助手像真人一樣溝通

OpenAI 正式發佈了其面向生產環境的“實時 API”，標誌着公司在語音交互技術領域邁出了重要一步。該 API 主要面向爲客戶支持、教育或個人生產力等實際應用構建語音助手的公司和開發者，其核心組件是全新的 GPT-Realtime 模型。該模型能夠直接生成和處理語音，無需傳統的文本轉換步驟，從而實現更快、更自然的對話。

核心功能與性能顯著提升

全新的 GPT-Realtime 模型在技術上實現了多項突破。它現在可以捕捉並理解笑聲等非語言線索，在同一句話中流暢地切換不同語言，並根據指令調整語氣，例如“以友好的法國口音”或“快速而專業”地說話。此外，該模型新增了兩種聲音:Cedar 和 Marin，並對現有聲音進行了優化，進一步提升了用戶體驗。

在基準測試中，GPT-Realtime 表現出色，其準確率在 Big Bench Audio 上達到了82.8%（高於65.6%），在 MultiChallenge 上達到了30.5%（高於20.6%），在 ComplexFuncBench 上達到了66.5%（高於49.7%）。這些數據表明，新模型在處理複雜指令和多語言任務方面有顯著進步。

OpenAI，ChatGPT，人工智能，AI

更好的集成與更低的價格

新版 API 簡化了工具集成，使模型能夠更可靠地選擇和使用正確的工具及參數。開發者現在可以通過 SIP 和遠程 MCP 服務器連接外部服務，並使用可重複使用的提示來保存不同的配置。

此外，圖像輸入功能也已上線。用戶可以在對話中發送屏幕截圖或照片，模型可以引用並理解圖像中的內容，例如讀取文本或回答相關問題。開發者可以靈活控制模型所能看到的內容範圍。

對於成本控制，新 API 允許開發者設置令牌限制並精簡長會話，同時，GPT-Realtime 的價格也降低了20%。目前，每百萬音頻輸入令牌價格爲32美元，每百萬輸出令牌爲64美元，緩存輸入令牌價格爲每百萬0.40美元。

安全與隱私:保障措施與用戶選擇

OpenAI 強調，該 API 能夠檢測並終止違反其政策的對話，但同時也指出，開發者應自行添加額外的安全保障。在數據隱私方面，OpenAI 提供了專門的選項，允許歐盟用戶選擇在歐盟境內存儲數據，併爲企業用戶制定了特殊的隱私規則，以確保數據安全合規。

OpenAI 推出“實時 API”:讓AI語音助手像真人一樣溝通

核心功能與性能顯著提升

更好的集成與更低的價格

安全與隱私:保障措施與用戶選擇

相關推薦

Anthropic 啓動員工股票出售計劃，總額或達 60 億美元

AI 圈瘋了！OpenAI 估值飆至 8500 億美元，印度三大巨頭狂砸 1.45 萬億加入“算力豪賭”

OpenAI 祕密開發中端套餐：ChatGPT Pro Lite 曝光，月費 100 美元

OpenAI 聯手四大諮詢巨頭：成立“前沿聯盟”，欲破企業級 AI 落地僵局

韓國三大電視臺聯手起訴 OpenAI，因未經授權使用新聞內容！

OpenAI 推出“實時 API”:讓AI語音助手像真人一樣溝通

核心功能與性能顯著提升

更好的集成與更低的價格

安全與隱私:保障措施與用戶選擇

相關推薦

Anthropic 啓動員工股票出售計劃，總額或達 60 億美元

AI 圈瘋了！OpenAI 估值飆至 8500 億美元，印度三大巨頭狂砸 1.45 萬億加入“算力豪賭”

​OpenAI 祕密開發中端套餐：ChatGPT Pro Lite 曝光，月費 100 美元

​OpenAI 聯手四大諮詢巨頭：成立“前沿聯盟”，欲破企業級 AI 落地僵局

韓國三大電視臺聯手起訴 OpenAI，因未經授權使用新聞內容！

OpenAI 祕密開發中端套餐：ChatGPT Pro Lite 曝光，月費 100 美元

OpenAI 聯手四大諮詢巨頭：成立“前沿聯盟”，欲破企業級 AI 落地僵局