音頻生成技術正迎來從級聯架構向端到端生成的範式轉移。針對傳統 TTS 系統因“梅爾頻譜”中間表徵帶來的信息損耗與誤差累積,美團 LongCat 團隊於今日正式發佈並開源了 LongCat-AudioDiT(提供1B/3.5B 兩個版本)。該模型通過在波形潛空間直接建模,成功刷新了零樣本語音克隆的性能上限。

核心架構:徹底告別梅爾頻譜
LongCat-AudioDiT 拋棄了傳統的“預測聲學特徵+神經聲碼器”的多階段流程,構建了由 Wav-VAE(波形變分自編碼器) 與 DiT(擴散 Transformer) 組成的極簡架構。
高效 Wav-VAE: 採用全卷積設計,將24kHz 波形壓縮2000倍至11.7Hz 幀率。通過非參數捷徑分支與多目標對抗訓練,確保了重建波形在保持精確時頻結構的同時,擁有極佳的自然聽感。
語義增強 DiT: 模型創新性地將 UMT5文本編碼器的原始詞嵌入與頂層隱藏狀態融合,補齊了高層語義中丟失的音素細節,大幅提升了生成語音的可懂度。
推理優化:精準解決音色漂移
爲了進一步優化生成質量,團隊引入了兩項關鍵技術改進:
雙重約束機制: 識別並糾正了流匹配 TTS 長期存在的“訓練-推理不匹配”問題。通過在推理中強制重置提示區域(Prompt)隱變量,徹底解決了說話人音色漂移及穩定性不足的痛點。
自適應投影引導 (APG): 取代傳統的無分類器引導 (CFG)。APG 能夠精準篩選引導信號中的有益分量,抑制導致音質劣化的信號,在不產生頻譜“過飽和”的前提下,顯著提升了語音的自然度。
性能表現:SOTA 級的克隆精度
在 Seed 基準測試中,LongCat-AudioDiT 展現了統治級的性能:
相似度(SIM):3.5B 模型在 Seed-ZH 測試集達到 0.818,在 Seed-Hard 難句測試集達到 0.797,均超越了 Seed-TTS、CosyVoice3.5及 MiniMax-Speech 等知名模型。
準確率: 在英文 WER(1.50%)及中文難句 CER(6.04%)等指標上均處於行業第一梯隊。
值得關注的是,LongCat-AudioDiT 僅通過 ASR 轉寫的預訓練數據進行單階段訓練,便實現了優於多階段訓練模型的表現。目前,相關論文、代碼及模型權重已在
地址:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT
