開源語音合成迎來新突破!近日發佈的開源 TTS 模型 Muyan-TTS 專爲播客、有聲書、長視頻等場景設計,具備零樣本語音合成、極速生成與高連貫性朗讀能力,是當前最適合批量化長語音生成的模型之一。
Muyan-TTS 基於超10萬小時播客數據預訓練,僅需 0.33秒即可生成1秒高質量音頻,支持無需打斷地朗讀數分鐘文本,語音自然流暢。更支持說話人定製,任意聲音克隆,一鍵生成具有個性化語氣與節奏的語音內容。
模型已開放至 Hugging Face,支持離線部署,開發者可輕鬆本地推理,適配多樣應用場景:播客生成、有聲書製作、英文視頻配音、AI角色朗讀、智能音箱播報等,極大提升內容生產效率。
感興趣的開發者可前往 Hugging Face 獲取模型權重與示例代碼,開啓你的 AI 語音創作之旅。
GitHub 開源地址:https://github.com/MYZY-AI/Muyan-TTS
HF 模型地址:https://huggingface.co/MYZY-AI/Muyan-TTS