Soul語音模型SoulX-Podcast震撼發佈：90分鐘無中斷播客生成，AI語音革命再升級

近日，AI語音領域迎來重大創新——Soul推出的SoulX-Podcast語音模型，以其革命性功能迅速成爲行業焦點。該模型專爲播客式內容設計，實現了高真實度的語音生成，支持長時段、多說話人、多語種交互，標誌着AI在自然對話模擬上的又一里程碑。

SoulX-Podcast的核心亮點在於其高保真與穩定性。它能夠連續生成超過90分鐘的對話內容，而不出現任何穩定性衰減，確保輸出流暢自然。這項能力特別適用於長篇播客、訪談或故事講述場景，讓AI語音從短時演示轉向實用級應用。

多語種與方言支持:中英雙語+方言無縫融合

模型在語言處理上表現出色，支持普通話、英語以及多種中文方言的多輪對話生成。用戶可以輕鬆實現中英雙語切換，或融入地方方言元素，營造更具地域特色的播客氛圍。更進一步，它具備副語言控制功能，如笑聲、嘆氣、停頓等情感表達的精確模擬，進一步提升了語音的生動性和沉浸感。

值得一提的是，SoulX-Podcast在零樣本克隆與遷移方面的創新。該功能允許模型在無需額外訓練的情況下，直接克隆特定聲音和語氣，實現個性化語音定製。這不僅降低了開發門檻，還爲內容創作者提供了無限創意空間，例如快速復刻名人訪談風格或模擬虛擬主持人的獨特語調。

行業影響:AI播客時代加速到來

這一發布無疑將推動AI語音在媒體、娛樂和教育領域的廣泛應用。專家指出，SoulX-Podcast的出現，將挑戰傳統錄音棚模式，讓小型團隊也能高效產出高質量播客內容。未來，隨着模型的迭代，預計將進一步擴展到實時交互和跨平臺集成。

項目地址：https://github.com/Soul-AILab/SoulX-Podcast

ElevenLabs CEO預言：AI語音模型將走向“商品化”，公司押注“模型+應用”雙輪驅動

在TechCrunch Disrupt2025大會上，ElevenLabs CEO馬蒂·斯塔尼斯澤夫斯基預測，AI語音模型將在未來兩三年內走向“商品化”。短期內模型性能仍是核心競爭力，但長期看，主流語言和通用音色的差異將縮小，企業需轉向產品、數據和生態構建以保持優勢。

Meta 收購 AI 語音初創公司 WaveForms，加碼音頻人工智能佈局

據《The Information》報道，Meta 已收購 AI 語音初創公司 WaveForms，交易金額未披露。這是 Meta 旗下新 AI 部門 Superintelligence Labs 的最新收購，也是該公司一個月內的第二筆 AI 音頻領域重要併購，上月 Meta 剛完成對 PlayAI 的收購。WaveForms 成立僅八個月，曾在由 Andreessen Horowitz 領投的融資中獲得4000萬美元，融資前估值達1.6億美元。據悉，WaveForms 兩位聯合創始人——前 Meta 與 OpenAI 研究員 Alexis Conneau 和前谷歌廣告策略師 Coralie Lemaitre——已加盟 Meta。Conneau 在 OpenAI 期間曾參與創建 GPT-4o Advanced Voice Mo

Soul語音模型SoulX-Podcast震撼發佈：90分鐘無中斷播客生成，AI語音革命再升級

相關推薦

騰訊搜狗輸入法發佈 20.0 重磅版本全面AI

語音聊26分鐘，80%用戶成功約會！AI約會新貴Known獲970萬美元融資

ElevenLabs CEO預言：AI語音模型將走向“商品化”，公司押注“模型+應用”雙輪驅動

延遲低於250毫秒！MiniMax Speech 2.6發佈，Fluent LoRA一鍵復刻任意音色，語音合成邁入實時交互時代

Meta 收購 AI 語音初創公司 WaveForms，加碼音頻人工智能佈局

Soul語音模型SoulX-Podcast震撼發佈：90分鐘無中斷播客生成，AI語音革命再升級

相關推薦

​騰訊搜狗輸入法發佈 20.0 重磅版本全面AI

語音聊26分鐘，80%用戶成功約會！AI約會新貴Known獲970萬美元融資

ElevenLabs CEO預言：AI語音模型將走向“商品化”，公司押注“模型+應用”雙輪驅動

延遲低於250毫秒！MiniMax Speech 2.6發佈，Fluent LoRA一鍵復刻任意音色，語音合成邁入實時交互時代

Meta 收購 AI 語音初創公司 WaveForms，加碼音頻人工智能佈局

騰訊搜狗輸入法發佈 20.0 重磅版本全面AI