OpenAI放大招！GPT-Realtime語音模型上線，支持圖像輸入，AI交互要逆天了！

OpenAI正式推出其最新語音模型GPT-Realtime，這款多模態語音Agent模型以其強大的推理能力、圖像輸入支持以及優化的指令遵循功能引發行業熱議。AIbase從最新信息中獲悉，GPT-Realtime不僅在語音交互上實現突破，還通過集成圖像輸入、遠程MCP和SIP電話呼叫等功能，爲開發者提供更智能、更靈活的語音Agent解決方案。

GPT-Realtime:多模態語音交互的先鋒

GPT-Realtime是OpenAI迄今爲止最先進的語音到語音模型，專爲生產級語音Agent設計，採用單一模型直接處理和生成音頻，顯著降低了傳統語音交互中的延遲問題。相比傳統語音交互系統需串聯語音轉文本（STT）、文本推理和文本轉語音(TTS)多個模型，GPT-Realtime通過端到端架構保留了語音的語調、情感和口音等細微差別，帶來更加自然、流暢的對話體驗。該模型支持多種模態輸入，包括文本、音頻和圖像，標誌着OpenAI在多模態AI領域的重大突破。

核心能力:智能推理與非語言信號捕捉

GPT-Realtime在智力、推理和理解能力上表現卓越，尤其擅長處理複雜交互場景。其核心亮點包括:

- 非語言信號識別:模型能敏銳捕捉笑聲、停頓等非語言線索，提升交互的自然度和人性化體驗。

- 語言切換與語氣調整:支持在對話中無縫切換語言，並根據場景需求調整語氣，例如“專業客服”或“熱情引導”，滿足多樣化應用需求。

- 高精度推理:在BigBenchAudio基準測試中，GPT-Realtime的推理準確率高達82.8%，相較前代模型（65.6%）大幅提升，展現出強大的邏輯處理能力。

- 指令遵循優化:在MultiChallenge音頻基準測試中，指令遵循準確率從20.6%提升至30.5%，確保模型能嚴格遵循開發者設定的複雜指令，例如逐字朗讀法律聲明或處理字母數字序列。

全新功能:圖像輸入與通信集成

GPT-Realtime的發佈帶來了多項創新功能，進一步擴展了語音Agent的應用場景:

- 圖像輸入支持:模型能夠處理圖像輸入並描述其內容，爲語音交互增添視覺上下文，適用於教育、客戶支持等場景。

- 遠程MCP與SIP電話呼叫:通過支持遠程Model Context Protocol（MCP）和Session Initiation Protocol(SIP)，開發者可將GPT-Realtime集成至電話系統或外部工具，實現更廣泛的實時交互。

- 上下文精細控制:模型支持可重用提示和會話修剪功能，開發者可精確管理對話上下文，優化成本和性能。

成本優化:生產級語音Agent更具性價比

OpenAI此次更新還將Realtime API的價格下調，音頻輸入每百萬token降至32美元，音頻輸出每百萬token降至64美元，較此前分別降低20%，爲開發者提供更經濟的解決方案。相比傳統語音交互pipeline，GPT-Realtime通過單模型處理大幅降低延遲和成本，助力企業在客戶支持、個人助理和教育等領域部署高效語音Agent。

行業影響:語音AI競爭白熱化

GPT-Realtime的發佈進一步加劇了語音AI市場的競爭。Anthropic、Meta和Mistral等公司近期也在加速佈局語音技術，例如Anthropic的Claude語音模式和Mistral的Voxtral模型。OpenAI通過GPT-Realtime的低延遲、高表達力和多模態支持，鞏固了其在語音AI領域的領先地位。業內分析認爲，該模型的圖像輸入和通信集成功能將推動語音Agent在企業級應用的普及，尤其是在客服中心和實時翻譯等場景。

未來展望:多模態AI生態的基石

OpenAI表示，GPT-Realtime是其多模態戰略的重要一步，未來將進一步擴展至視頻等模態，爲開發者提供更全面的AI交互工具。結合OpenAI近期推出的Agents SDK，開發者只需數行代碼即可將現有文本應用升級爲語音交互應用，極大降低了開發門檻。AIbase預計，GPT-Realtime的開放性和高性能將加速語音Agent在全球範圍內的商業化落地。

GPT-Realtime以其卓越的多模態能力、優化的指令遵循和低成本優勢，爲語音AI領域樹立了新標杆。OpenAI通過整合圖像輸入和通信功能，不僅提升了語音Agent的實用性，也爲開發者打造了更靈活、高效的開發環境。這一發布無疑將推動AI交互技術邁向新的高度，值得行業持續關注。

API地址:https://platform.openai.com/docs/guides/realtime

OpenAI放大招！GPT-Realtime語音模型上線，支持圖像輸入，AI交互要逆天了！

相關推薦

AI代理驚險“越獄”！OpenAI與Hugging Face聯手化解滲透危機

OpenAI 正式在 ChatGPT 中推出廣告服務，Best Buy 等已率先試水

AI演習變實戰？OpenAI新模型意外“入侵”知名開源平臺

目標過於激進？分析師指OpenAI百億廣告收入願景恐難實現

OpenAI預發佈模型攻破Hugging Face：關在沙箱裏的AI自己找到了漏洞，還學會了作弊