Play AI 日前開源推出了一款全新語音編輯模型——PlayDiffusion,這是一種基於擴散模型的創新性工具,專爲語音局部修改而設計。不同於傳統的文本轉語音系統需對整段音頻重生成,PlayDiffusion 支持直接對語音中的某一部分進行替換、刪除或調整,而其他未修改部分將保持完全一致。這種方式不僅極大提高了效率,也讓音頻編輯進入“所聽即所得”的新階段。
用戶只需提供目標文本(例如將音頻中的“Neo”改爲“Morpheus”),模型便可精準識別需替換位置,並智能調整節奏、語調以及說話人的音色,實現幾乎無痕的自然融合。PlayDiffusion 能夠有效避免人工修改後的割裂感,聽感上幾乎無法察覺任何拼接痕跡。
得益於擴散模型架構帶來的整體優化能力,在語音片段被大範圍 mask(遮蓋)的極端場景中,它也可作爲一款非自迴歸的高性能 TTS(文本轉語音)模型使用。相較傳統 TTS 系統,PlayDiffusion 的推理速度提升可達50倍,並具備更強的全局一致性,適合需要高效率、高質量語音合成的應用場景。
這項技術的推出對於播客製作、AI 配音、內容糾錯、劇本對話二次加工等場景意義重大。PlayDiffusion 不只是一個音頻編輯工具,更是語音生成領域向“精確、靈活、自然”轉型的重要信號。在語音AI日益普及的當下,它或將成爲下一個播客、視頻內容創作的必備利器。
GitHub:https://github.com/playht/PlayDiffusion
模型下載:https://huggingface.co/PlayHT/PlayDiffusion