Soul语音模型SoulX-Podcast震撼发布：90分钟无中断播客生成，AI语音革命再升级

近日，AI语音领域迎来重大创新——Soul推出的SoulX-Podcast语音模型，以其革命性功能迅速成为行业焦点。该模型专为播客式内容设计，实现了高真实度的语音生成，支持长时段、多说话人、多语种交互，标志着AI在自然对话模拟上的又一里程碑。

SoulX-Podcast的核心亮点在于其高保真与稳定性。它能够连续生成超过90分钟的对话内容，而不出现任何稳定性衰减，确保输出流畅自然。这项能力特别适用于长篇播客、访谈或故事讲述场景，让AI语音从短时演示转向实用级应用。

多语种与方言支持:中英双语+方言无缝融合

模型在语言处理上表现出色，支持普通话、英语以及多种中文方言的多轮对话生成。用户可以轻松实现中英双语切换，或融入地方方言元素，营造更具地域特色的播客氛围。更进一步，它具备副语言控制功能，如笑声、叹气、停顿等情感表达的精确模拟，进一步提升了语音的生动性和沉浸感。

值得一提的是，SoulX-Podcast在零样本克隆与迁移方面的创新。该功能允许模型在无需额外训练的情况下，直接克隆特定声音和语气，实现个性化语音定制。这不仅降低了开发门槛，还为内容创作者提供了无限创意空间，例如快速复刻名人访谈风格或模拟虚拟主持人的独特语调。

行业影响:AI播客时代加速到来

这一发布无疑将推动AI语音在媒体、娱乐和教育领域的广泛应用。专家指出，SoulX-Podcast的出现，将挑战传统录音棚模式，让小型团队也能高效产出高质量播客内容。未来，随着模型的迭代，预计将进一步扩展到实时交互和跨平台集成。

项目地址：https://github.com/Soul-AILab/SoulX-Podcast

ElevenLabs CEO预言：AI语音模型将走向“商品化”，公司押注“模型+应用”双轮驱动

在TechCrunch Disrupt2025大会上，ElevenLabs CEO马蒂·斯塔尼斯泽夫斯基预测，AI语音模型将在未来两三年内走向“商品化”。短期内模型性能仍是核心竞争力，但长期看，主流语言和通用音色的差异将缩小，企业需转向产品、数据和生态构建以保持优势。

Meta 收购 AI 语音初创公司 WaveForms，加码音频人工智能布局

据《The Information》报道，Meta 已收购 AI 语音初创公司 WaveForms，交易金额未披露。这是 Meta 旗下新 AI 部门 Superintelligence Labs 的最新收购，也是该公司一个月内的第二笔 AI 音频领域重要并购，上月 Meta 刚完成对 PlayAI 的收购。WaveForms 成立仅八个月，曾在由 Andreessen Horowitz 领投的融资中获得4000万美元，融资前估值达1.6亿美元。据悉，WaveForms 两位联合创始人——前 Meta 与 OpenAI 研究员 Alexis Conneau 和前谷歌广告策略师 Coralie Lemaitre——已加盟 Meta。Conneau 在 OpenAI 期间曾参与创建 GPT-4o Advanced Voice Mo

Soul语音模型SoulX-Podcast震撼发布：90分钟无中断播客生成，AI语音革命再升级

相关推荐

腾讯搜狗输入法发布 20.0 重磅版本全面AI

语音聊26分钟，80%用户成功约会！AI约会新贵Known获970万美元融资

ElevenLabs CEO预言：AI语音模型将走向“商品化”，公司押注“模型+应用”双轮驱动

延迟低于250毫秒！MiniMax Speech 2.6发布，Fluent LoRA一键复刻任意音色，语音合成迈入实时交互时代

Meta 收购 AI 语音初创公司 WaveForms，加码音频人工智能布局

Soul语音模型SoulX-Podcast震撼发布：90分钟无中断播客生成，AI语音革命再升级

相关推荐

​腾讯搜狗输入法发布 20.0 重磅版本全面AI

语音聊26分钟，80%用户成功约会！AI约会新贵Known获970万美元融资

ElevenLabs CEO预言：AI语音模型将走向“商品化”，公司押注“模型+应用”双轮驱动

延迟低于250毫秒！MiniMax Speech 2.6发布，Fluent LoRA一键复刻任意音色，语音合成迈入实时交互时代

Meta 收购 AI 语音初创公司 WaveForms，加码音频人工智能布局

腾讯搜狗输入法发布 20.0 重磅版本全面AI