Soul語音大模型重磅升級：實時端到端語音通話真人和AI虛擬人傻傻分不清楚！

在國內“AI+社交”這條賽道上，Soul App即將利用AI注入了新的活力!

最近，Soul官方宣佈其語音大模型再次升級，上線自研端到端全雙工語音通話大模型。

這次升級帶來最驚豔的效果是，可以讓用戶和虛擬人之間的語音通話就像和真人聊天一樣自然流暢!

效果有多真實，大家可以先看看下面的視頻感受下:

官方展示的“體驗與AI實時通話”的示例

那麼，Soul自研端到端語音通話大模型到底有什麼特別之處呢?根據官方描述，其最大的亮點包括:

具備超低交互延遲
快速自動打斷
超真實聲音表達
情緒感知理解能力等

超低交互延遲能力意味着，你說話的那一瞬間，AI 就能立刻做出反應，沒有任何的延遲，瞬間就能拉近你和 AI 之間的距離。想要和它進行真實的交流，根本不需要等待，簡直就像在跟真人對話一樣。

Soul 的語音大模型支持快速自動打斷功能。也就是說，當你和 AI 交流的時候，如果你想插話，它完全能理解你的意思，輕鬆打斷對方，這樣的互動真是太有趣了!

最後，再加上超真實的聲音表達和情緒感知理解能力，AI 不僅能聽懂你的話，還能感知你的情緒，根據情緒給予適當的的迴應。

結合官方展示的視頻示例，如果這個功能之後全量上線，估計有一大波用戶在Soul上體驗的時候，可能會連真人和AI虛擬人都傻傻分不清楚。

Soul方面表示，目前其端到端語音通話大模型已應用於“異世界迴響”實時通話場景（內測中），並將在後續拓展至AI苟蛋等多個AI陪伴、AI互動場景。

據瞭解，早在2020年，Soul已經啓動了AIGC技術研發，專注於智能對話、語音技術、虛擬人等關鍵技術的研發，並把這些AI能力深度融入到社交場景中。

在用AI升級社交的過程中，Soul特別注重實現擬人化、自然化的情感陪伴體驗。

爲了給用戶帶來更好的情緒反饋和陪伴感，Soul技術團隊一直在關注情緒理解和延遲問題。他們推出了自研的語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等，支持真實音色生成、語音DIY、多語言切換、多情感擬真人實時對話等功能，這些已經應用在了Soul的多個場景中，比如“AI苟蛋”、“狼人魅影”AI語音實時互動、“異世界迴響”等。

Soul自研的端到端語音通話大模型上線了，意味着用戶可以享受到更自然的人機交互體驗。未來，Soul 還計劃進一步推動多模態端到端大模型能力的建設，讓人與 AI 的互動更加有趣、沉浸感更強。

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

復旦大學MOSS團隊發佈MOSS-Speech，首次實現端到端語音對話，模型已在Hugging Face上線並開源。採用“層拆分”架構，凍結原文本模型，新增語音理解、語義對齊和聲碼器層，可一次性完成語音問答、情緒模仿和笑聲生成，無需傳統三段式流程。評測顯示，在ZeroSpeech2025任務中詞錯率降至4.1%，情感識別準確率達91.2%。

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

9月19日，小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio，這一創新成果標誌着語音技術領域的一次重大突破。五年前，GPT-3的出現開啓了語言通用人工智能（AGI）的新紀元，但語音領域一直受限於對大規模標註數據的依賴，難以實現類似的語言模型的少樣本泛化能力。如今，小米推出的 Xiaomi-MiMo-Audio 模型基於創新的預訓練架構和上億小時的訓練數據，首次在語音領域實現了基於 In-Context Learning(ICL)的少樣本泛化，並在預訓練過程中觀察到了明顯的“涌現”行爲。 Xiaomi-MiMo-Audio 模型在多個標準評測基準中表現出色，其性能不僅超越了同參數量的開源模型，還在音頻理解基準 MMAU 的標準測試集上超過了 Google 的閉源語音模型 Gemini-2.5-Flash，並在音頻複雜推理基準 Big Bench Audio S2T 任務中超越

Soul語音大模型重磅升級：實時端到端語音通話真人和AI虛擬人傻傻分不清楚！

相關推薦

特斯拉車機語音大模型在滬完成備案，智能座艙體驗迎來AI升級

社交終局是 AI？Soul 創始人親自下場：開放核心技術，4700 名大學生在“元創營”重塑 Z 世代社交

DAU超1100萬!Soul App成爲中國AI社交第一股

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

Soul語音大模型重磅升級：實時端到端語音通話 真人和AI虛擬人傻傻分不清楚！

相關推薦

特斯拉車機語音大模型在滬完成備案，智能座艙體驗迎來AI升級

社交終局是 AI？Soul 創始人親自下場：開放核心技術，4700 名大學生在“元創營”重塑 Z 世代社交

DAU超1100萬!Soul App成爲中國AI社交第一股

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

Soul語音大模型重磅升級：實時端到端語音通話真人和AI虛擬人傻傻分不清楚！