近日,AI語音領域迎來重大創新——Soul推出的SoulX-Podcast語音模型,以其革命性功能迅速成爲行業焦點。該模型專爲播客式內容設計,實現了高真實度的語音生成,支持長時段、多說話人、多語種交互,標誌着AI在自然對話模擬上的又一里程碑。

image.png

SoulX-Podcast的核心亮點在於其高保真與穩定性。它能夠連續生成超過90分鐘的對話內容,而不出現任何穩定性衰減,確保輸出流暢自然。這項能力特別適用於長篇播客、訪談或故事講述場景,讓AI語音從短時演示轉向實用級應用。

多語種與方言支持:中英雙語+方言無縫融合

模型在語言處理上表現出色,支持普通話、英語以及多種中文方言的多輪對話生成。用戶可以輕鬆實現中英雙語切換,或融入地方方言元素,營造更具地域特色的播客氛圍。更進一步,它具備副語言控制功能,如笑聲、嘆氣、停頓等情感表達的精確模擬,進一步提升了語音的生動性和沉浸感。

值得一提的是,SoulX-Podcast在零樣本克隆與遷移方面的創新。該功能允許模型在無需額外訓練的情況下,直接克隆特定聲音和語氣,實現個性化語音定製。這不僅降低了開發門檻,還爲內容創作者提供了無限創意空間,例如快速復刻名人訪談風格或模擬虛擬主持人的獨特語調。

行業影響:AI播客時代加速到來

這一發布無疑將推動AI語音在媒體、娛樂和教育領域的廣泛應用。專家指出,SoulX-Podcast的出現,將挑戰傳統錄音棚模式,讓小型團隊也能高效產出高質量播客內容。未來,隨着模型的迭代,預計將進一步擴展到實時交互和跨平臺集成。

項目地址:https://github.com/Soul-AILab/SoulX-Podcast