近日,豆包公司宣佈推出其全新的實時語音大模型,號稱在中文對話方面實現了 “斷崖式領先”,標誌着 AI 對話能力的顯著提升。這一模型在豆包 App(版本號7.2.0新春版)中全量開放,爲用戶帶來了更爲豐富和真實的語音交流體驗。

據介紹,豆包的實時語音大模型實現了語音理解與生成的深度融合,形成了端到端的語音對話系統。這一技術的突破讓模型在語音表現力、控制力以及情緒承接方面的表現非常出色,具備低時延和隨時打斷對話的功能,極大提升了用戶的互動體驗。官方表示,該技術不僅在 “智商” 上有所提升,情商也在線,能夠更好地理解和表達情感。

image.png

此次更新還包括了實時語音通話功能,該功能依託於豆包最新的大模型,可以在不同場景中靈活調整對話節奏、兒化音、音量和氣音等細節。此外,新的語音功能還能模仿不同的聲線,支持多種方言與英語對話,甚至具備部分歌曲的演唱能力。這一切都讓人機對話的真實感提升到了一個新的層次,幾乎達到了 “人機難辨” 的境地。

豆包的研發團隊表示,這一全新技術基於端到端的框架,通過原生方法深度融合語音與文本的模式進行統一建模。這樣的設計不僅優化了語音識別和生成的流程,也爲 AI 賦予了更爲豐富的 “靈魂”,使其能夠更好地與人類進行交流。

豆包的實時語音大模型在中文語音對話領域的推出,將會爲用戶提供前所未有的交互體驗,推動智能語音技術的發展。