xAI正式推出Grok Voice Agent API,爲開發者開放實時語音交互能力。這一API基於Grok語音技術棧打造,已在移動應用和數百萬Tesla車輛中服務海量用戶,現向全球開發者全面開放。

極致性價比:每分鐘僅0.05美元  

Grok Voice Agent API以行業領先的成本效率脫穎而出,採用簡單平價計費模式——每分鐘連接時間僅0.05美元。這一定價顯著低於主流競品,幫助開發者以最低成本構建高性能語音應用。

音頻推理基準排名第一  

權威音頻推理基準Big Bench Audio上,Grok Voice Agent API位居第一。該API平均首音頻響應時間不到1秒,比最接近的競爭對手快近5倍,展現出卓越的實時響應與推理能力。

核心能力一覽  

- 實時雙向語音通信:支持流式音頻輸入輸出,實現低延遲、自然對話體驗。  

- 多語言支持:覆蓋包括中文在內的數十種語言(官方稱超100種),具備原生級發音、口音和方言捕捉能力。  

- 自動語言識別與切換:無需配置,即可自動檢測用戶語言並無縫切換;開發者也可通過系統提示指定響應語言。  

- 外部工具調用:輕鬆集成自定義工具,或接入xAI的實時搜索能力,覆蓋網絡和X平臺數據。  

- 實時聯網搜索與推理:在對話中即時查詢信息並進行復雜推理。  

- 情感提示控制語音:通過提示調節語音情感表達,提升交互自然度。  

- 多種人聲選擇:提供多樣化聲音選項,包括Sal、Rex、Eve、Leo等經典角色,以及Mika、Valentin等伴侶型人格。  

- 兼容OpenAI Realtime API規範:無縫遷移現有應用,並支持xAI LiveKit插件,便於快速集成。

未來展望  

xAI表示,該API將持續迭代,未來幾周內將推出獨立文本到語音(TTS)和語音到文本(STT)端點,以及進一步優化的音頻模型,提升發音準確度和延遲表現。