Augie 是一個 AI 驅動的視頻創作平臺,它使用語音克隆技術讓用戶可以錄製自己或他人的聲音,並將其克隆以用於其他短視頻。該平臺適用於營銷人員和社交媒體團隊,可以快速向視頻添加旁白、照片、文本和音樂,無需學習音頻和視頻編輯。Augie 在公開測試中,所有用戶都可以使用語音克隆功能,未來可能會限制免費用戶的視頻長度和質量。該平臺還與合作伙伴 ElevenLabs 合作,以識別 AI 生成的聲音和視頻。
相關推薦
美團 LongCat-AudioDiT 開源:首創波形潛空間建模,刷新音色克隆 SOTA
美團LongCat團隊發佈並開源了LongCat-AudioDiT模型,採用端到端架構,直接在波形潛空間建模,摒棄了傳統TTS系統中的梅爾頻譜中間表徵,有效減少了信息損耗與誤差累積,顯著提升了零樣本語音克隆的性能。
ElevenLabs推出AI音樂交易市場,首創“創作者分成”商業模式
ElevenLabs於2026年3月推出AI音樂交易市場,用戶可利用其AI音樂模型創作並銷售曲目,將語音克隆的成功商業模式擴展至音頻領域。創作者上傳原創AI歌曲後,可通過下載、混音或授權獲得收益。此前,其語音市場已向創作者支付超1100萬美元,音樂模型已生成近1400萬首歌曲。
ElevenLabs簽下麥康納與凱恩 推出明星語音授權市場
AI音頻公司ElevenLabs與奧斯卡得主Matthew McConaughey、Michael Caine達成語音克隆合作,將其AI聲線納入新平臺“Iconic Voice Marketplace”。該平臺已收錄超25位名人語音,提供合法授權使用渠道。McConaughey作爲公司投資人,將利用自身聲音參與項目。
語音編輯像改Word?階躍星辰發佈30億參數音頻編輯模型Step-Audio-EditX
國內AI公司階躍星辰發佈Step-Audio-EditX模型,實現用自然語言指令編輯語音。用戶只需輸入文字要求,即可精準調整音色、情緒、節奏等,讓語音編輯如修改文檔般直觀高效。30億參數確保性能強大。
文本轉語音系統Spark-TTS:支持零樣本語音克隆與細粒度控制
日前,一款名爲 Spark-TTS 的先進文本轉語音系統引發了 AI 社區的廣泛討論。根據最新的 X 帖子和相關研究,這款系統以其零樣本語音克隆和細粒度語音控制能力脫穎而出,展現了語音合成領域的重大突破。這款系統充分利用了大型語言模型(LLM)的強大能力,致力於實現高度準確且自然的語音合成,適用於研究和商業領域。Spark-TTS 的設計理念強調簡潔與高效。該系統完全基於 Qwen2.5構建,摒棄了以往需要額外生成模型的複雜流程。與其他模型不同,Spark-TTS 直接從 LLM 預測的代碼中重建音頻
