Augie 是一个 AI 驱动的视频创作平台,它使用语音克隆技术让用户可以录制自己或他人的声音,并将其克隆以用于其他短视频。该平台适用于营销人员和社交媒体团队,可以快速向视频添加旁白、照片、文本和音乐,无需学习音频和视频编辑。Augie 在公开测试中,所有用户都可以使用语音克隆功能,未来可能会限制免费用户的视频长度和质量。该平台还与合作伙伴 ElevenLabs 合作,以识别 AI 生成的声音和视频。
相关推荐
美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA
美团LongCat团队发布并开源了LongCat-AudioDiT模型,采用端到端架构,直接在波形潜空间建模,摒弃了传统TTS系统中的梅尔频谱中间表征,有效减少了信息损耗与误差累积,显著提升了零样本语音克隆的性能。
ElevenLabs推出AI音乐交易市场,首创“创作者分成”商业模式
ElevenLabs于2026年3月推出AI音乐交易市场,用户可利用其AI音乐模型创作并销售曲目,将语音克隆的成功商业模式扩展至音频领域。创作者上传原创AI歌曲后,可通过下载、混音或授权获得收益。此前,其语音市场已向创作者支付超1100万美元,音乐模型已生成近1400万首歌曲。
ElevenLabs签下麦康纳与凯恩 推出明星语音授权市场
AI音频公司ElevenLabs与奥斯卡得主Matthew McConaughey、Michael Caine达成语音克隆合作,将其AI声线纳入新平台“Iconic Voice Marketplace”。该平台已收录超25位名人语音,提供合法授权使用渠道。McConaughey作为公司投资人,将利用自身声音参与项目。
语音编辑像改Word?阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX
国内AI公司阶跃星辰发布Step-Audio-EditX模型,实现用自然语言指令编辑语音。用户只需输入文字要求,即可精准调整音色、情绪、节奏等,让语音编辑如修改文档般直观高效。30亿参数确保性能强大。
文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制
日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建,摒弃了以往需要额外生成模型的复杂流程。与其他模型不同,Spark-TTS 直接从 LLM 预测的代码中重建音频
