Cartesia 公司重磅發佈其最新語音 AI 引擎 Sonic-3,宣稱其爲當前市場上速度最快、最自然的實時語音對話模型。Sonic-3的核心目標是提供極致自然與迅速的語音交互體驗,使 AI 能夠以幾乎零延遲的方式進行對話,並模擬人類的情感、語氣乃至笑聲和情緒變化,從而大幅提升交流的真實性和表現力。
Sonic-3的突破性性能得益於其採用了全新的 “狀態空間模型”(SSM)架構,而非傳統的 Transformer 模型。Cartesia 介紹,SSM 架構能更有效地模擬人類思維,記住對話主題和情緒,無需每次都從頭分析上下文,從而在語音自然度和低延遲性能方面達到前所未有的水平。該模型延遲低於 100毫秒,使其在實時語音交互行業中處於領先地位。

在功能和覆蓋範圍上,Sonic-3展現出強大的全球化潛力。它支持 42種語言,覆蓋全球 95% 的人口,包括9種印度語言,能爲不同市場的需求提供母語級的語音模型。Sonic-3還具備智能上下文理解能力,能夠自動識別並正確朗讀如 NASA、FBI 等縮寫和首字母縮寫詞,顯著增強了對話的流暢性。此外,該引擎支持語音克隆功能,用戶可在短短 10秒內生成個性化語音,企業版還提供專業的語音調優與品牌音色定製服務。
Sonic-3的應用前景廣闊,可廣泛應用於客戶支持、虛擬伴侶、醫療保健和物流服務業等領域,通過情緒化的語音顯著提升客戶服務體驗。
爲支持 Sonic-3的進一步研發與推廣,Cartesia 同時宣佈已完成 1億美元的融資,投資方包括 Kleiner Perkins、Index Ventures、Lightspeed 和 NVIDIA 等知名企業。Cartesia 相信,隨着 Sonic-3的推出,人機交互領域將迎來重大突破,爲用戶帶來更加豐富與自然的交流體驗。用戶可訪問 Cartesia 官方網站在線體驗 Sonic-3。
地址:https://cartesia.ai/sonic
