在文本生成與圖像生成已被大模型徹底重塑的時代,語音編輯仍是最難以“像寫文本那樣”直觀操作的領域。而近日,StepFun AI 發佈的全新開源項目 Step-Audio-EditX 正在改變這一現狀。該模型基於 30億參數的音頻語言模型(Audio LLM)首次將語音編輯轉化爲類似文本標記級別的可控操作,而非傳統的波形信號處理任務。

根據團隊在最新論文 arXiv:2511.03601中介紹,Step-Audio-EditX 的目標是讓開發者能夠“像改一句文本那樣,直接編輯語音的情感、語調、風格甚至呼吸聲”。

QQ20251110-113156.png

 從“模仿聲音”到“精準控制”

目前多數零樣本 TTS 系統僅能從短參考音頻中複製情感、口音和音色,聽起來自然卻缺乏控制力。文本中的風格提示往往被忽略,尤其在跨語言、跨風格任務中效果不穩定。

Step-Audio-EditX 選擇了完全不同的路徑——不再依賴複雜的解耦編碼器結構,而是通過改變數據結構與訓練目標實現可控性。模型通過大量文本相同、屬性差異顯著的語音對和語音三元組進行學習,從而掌握如何在文本不變的前提下調整情感、風格與副語言信號。

雙碼本分詞與3B 音頻 LLM 架構

Step-Audio-EditX 延續了 Step-Audio 的 雙碼本分詞器(Dual Codebook Tokenizer):

  • 語言流:採樣率16.7Hz,包含1024個標記;

  • 語義流:採樣率25Hz,包含4096個標記;

  • 兩者以 2:3比例交錯排列,保留語音中的韻律與情感特徵。

在此基礎上,研究團隊構建了一個 30億參數的緊湊型音頻 LLM。模型使用文本 LLM 初始化,並在混合語料庫上訓練(文本與音頻標記比例1:1)。它能讀取文本或音頻標記,並始終輸出雙碼本標記序列。

音頻重建由獨立解碼器完成:擴散變換器流匹配模塊 預測梅爾頻譜圖,BigVGANv2聲碼器 將其轉爲波形。整個模塊在20萬小時高質量語音上訓練,顯著提升了音色與韻律的自然度。

QQ20251110-113220.png

 大間隔學習與合成數據策略

Step-Audio-EditX 的關鍵創新是“大間隔學習”(Large Margin Learning)。模型在保持文本不變的前提下,通過三元組和四元組樣本訓練,學習在“差異明顯”的語音屬性間轉換。

團隊使用了覆蓋中、英、粵語和四川話的 6萬名說話人數據集,並構建了合成三元組以強化情感與風格控制。每組樣本由人工配音演員錄製10秒片段,StepTTS 系統生成中性與情感版本,再由人工與模型雙重評分篩選質量最高的樣本。

副語言(如笑聲、呼吸、填充停頓)編輯基於 NVSpeech 數據集,通過克隆和標註去除實現時域監督,無需額外邊距模型。

 SFT + PPO:讓模型學會聽懂指令

訓練分爲兩個階段:

  1. 監督微調(SFT):模型在統一的聊天格式中同時學習 TTS 和編輯任務;

  2. 強化學習(PPO):通過獎勵模型優化對自然語言指令的響應。

獎勵模型基於 SFT 檢查點初始化,使用 Bradley-Terry 損失在大間隔偏好對上訓練,直接在標記級別計算獎勵,無需解碼波形。PPO 再結合 KL 懲罰項平衡音質與偏差。

Step-Audio-Edit-Test:AI 評測標準

爲量化控制能力,團隊提出了 Step-Audio-Edit-Test 基準,採用 Gemini2.5Pro 作爲評審模型,從情感、風格、副語言三維度評估。

結果顯示:

  • 中文情感準確率從57.0% 提升至77.7%;

  • 風格準確率從41.6% 提升至69.2%;

  • 英文結果表現類似。

副語言編輯平均得分也從1.91升至2.89,已接近主流商業系統水平。更令人驚訝的是,Step-Audio-EditX 對閉源系統如 GPT-4o mini TTS、ElevenLabs v2、豆包種子 TTS2.0等均能帶來顯著提升

Step-Audio-EditX 代表了可控語音合成的一次真正躍遷。它放棄傳統的波形級信號操作,以離散標記爲基礎,結合大間隔學習與強化優化,使語音編輯的體驗首次接近文本編輯的流暢度。

在技術與開放性上,StepFun AI 選擇了全堆棧開源(包括模型權重與訓練代碼),極大地降低了語音編輯研究的門檻。這意味着未來開發者可以像修改文字一樣,精準控制語音的情緒、語氣與副語言特徵

項目地址:https://stepaudiollm.github.io/step-audio-editx/

論文:https://arxiv.org/pdf/2511.03601

GitHub:https://github.com/stepfun-ai/Step-Audio-EditX

在線體驗:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX