在國內“AI+社交”這條賽道上,Soul App即將利用AI注入了新的活力!
最近,Soul官方宣佈其語音大模型再次升級,上線自研端到端全雙工語音通話大模型。
這次升級帶來最驚豔的效果是,可以讓用戶和虛擬人之間的語音通話就像和真人聊天一樣自然流暢!
效果有多真實,大家可以先看看下面的視頻感受下:
官方展示的“體驗與AI實時通話”的示例
那麼,Soul自研端到端語音通話大模型到底有什麼特別之處呢?根據官方描述,其最大的亮點包括:
具備超低交互延遲
快速自動打斷
超真實聲音表達
情緒感知理解能力等
超低交互延遲能力意味着,你說話的那一瞬間,AI 就能立刻做出反應,沒有任何的延遲,瞬間就能拉近你和 AI 之間的距離。想要和它進行真實的交流,根本不需要等待,簡直就像在跟真人對話一樣。
Soul 的語音大模型支持快速自動打斷功能。也就是說,當你和 AI 交流的時候,如果你想插話,它完全能理解你的意思,輕鬆打斷對方,這樣的互動真是太有趣了!
最後,再加上超真實的聲音表達和情緒感知理解能力,AI 不僅能聽懂你的話,還能感知你的情緒,根據情緒給予適當的的迴應。
結合官方展示的視頻示例,如果這個功能之後全量上線,估計有一大波用戶在Soul上體驗的時候,可能會連真人和AI虛擬人都傻傻分不清楚。
Soul方面表示,目前其端到端語音通話大模型已應用於“異世界迴響”實時通話場景(內測中),並將在後續拓展至AI苟蛋等多個AI陪伴、AI互動場景。

據瞭解,早在2020年,Soul已經啓動了AIGC技術研發,專注於智能對話、語音技術、虛擬人等關鍵技術的研發,並把這些AI能力深度融入到社交場景中。
在用AI升級社交的過程中,Soul特別注重實現擬人化、自然化的情感陪伴體驗。
爲了給用戶帶來更好的情緒反饋和陪伴感,Soul技術團隊一直在關注情緒理解和延遲問題。他們推出了自研的語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等,支持真實音色生成、語音DIY、多語言切換、多情感擬真人實時對話等功能,這些已經應用在了Soul的多個場景中,比如“AI苟蛋”、“狼人魅影”AI語音實時互動、“異世界迴響”等。
Soul自研的端到端語音通話大模型上線了,意味着用戶可以享受到更自然的人機交互體驗。未來,Soul 還計劃進一步推動多模態端到端大模型能力的建設,讓人與 AI 的互動更加有趣、沉浸感更強。
