PlayDiffusion發佈：開源擴散模型實現語音“局部修改”不留痕

Play AI 日前開源推出了一款全新語音編輯模型——PlayDiffusion，這是一種基於擴散模型的創新性工具，專爲語音局部修改而設計。不同於傳統的文本轉語音系統需對整段音頻重生成，PlayDiffusion 支持直接對語音中的某一部分進行替換、刪除或調整，而其他未修改部分將保持完全一致。這種方式不僅極大提高了效率，也讓音頻編輯進入“所聽即所得”的新階段。

用戶只需提供目標文本（例如將音頻中的“Neo”改爲“Morpheus”），模型便可精準識別需替換位置，並智能調整節奏、語調以及說話人的音色，實現幾乎無痕的自然融合。PlayDiffusion 能夠有效避免人工修改後的割裂感，聽感上幾乎無法察覺任何拼接痕跡。

得益於擴散模型架構帶來的整體優化能力，在語音片段被大範圍 mask（遮蓋）的極端場景中，它也可作爲一款非自迴歸的高性能 TTS(文本轉語音)模型使用。相較傳統 TTS 系統，PlayDiffusion 的推理速度提升可達50倍，並具備更強的全局一致性，適合需要高效率、高質量語音合成的應用場景。

這項技術的推出對於播客製作、AI 配音、內容糾錯、劇本對話二次加工等場景意義重大。PlayDiffusion 不只是一個音頻編輯工具，更是語音生成領域向“精確、靈活、自然”轉型的重要信號。在語音AI日益普及的當下，它或將成爲下一個播客、視頻內容創作的必備利器。

GitHub:https://github.com/playht/PlayDiffusion

模型下載:https://huggingface.co/PlayHT/PlayDiffusion

Step-Audio-EditX 發佈:30億參數音頻 LLM 打開語音“可編輯時代”

StepFun AI發佈開源項目Step-Audio-EditX，基於30億參數音頻語言模型，將語音編輯轉化爲類似文本標記的可控操作，突破傳統波形處理模式。該技術有望實現"像編輯文本一樣編輯語音"的直觀交互，相關論文已發佈於arXiv平臺（編號2511.03601）。

StepFun AI 推出開源音頻編輯模型 Step-Audio-EditX，實現音頻編輯新體驗

StepFun AI發佈開源音頻編輯模型Step-Audio-EditX，該3B參數模型將音頻編輯轉化爲類似文本編輯的令牌操作，實現直接可控的語音編輯。它解決了當前零樣本文本轉語音系統在情感、風格等控制上的侷限，使表達性語音編輯更簡單精確。

語音AI的顛覆者！PlayAI：用聲音重塑數字交互的邊界

從一個簡單的Chrome擴展，到如今估值超2000萬美元的AI語音帝國，PlayAI正用聲音技術重新定義人機交互的想象邊界。創始人Hammad Syed和Mahmoud Felfel用代碼和算法編織出一個充滿可能性的聲音世界。這不僅僅是一家語音技術公司，更是一個能將文字瞬間轉化爲栩栩如生聲音的魔法工廠。PlayAI的核心魅力在於其驚人的聲音克隆和生成能力。想象一下，只需幾分鐘，你就能擁有一個完全屬於自己的AI聲音助理，能以任何你想要的語調和風格講述故事。PlayNote等產品更是將AI語音推向令人驚歎的極致。它

對標谷歌NotebookLM！語音生成模型PlayDialog：可生成對話播客、旁白

近日，Play AI 正式推出其最具雄心的產品 ——PlayDialog beta版本，能生成對話式的播客音頻。這款端到端的 AI 語音模型，利用對話的歷史上下文，能夠調控語調、情感和語速，以實現更自然的語音合成，標誌着人機對話的新高度。PlayDialog 特別適合於製作真實的對話體驗，例如旁白、語音配音、合成播客等，也能在商業環境中提供沉浸式的一對一語音交流體驗，效果類似谷歌的NotebookLM與此同時，Play AI 還推出了 PlayNote，這是一款可以將多種媒體文件（如 PDF、文本、視頻等）轉化爲對話體驗的

OpenAI 收購 Windsurf 引發開發者不滿，Claude模型訪問權限遭遇瓶頸