美團 LongCat-AudioDiT 開源:首創波形潛空間建模，刷新音色克隆 SOTA

音頻生成技術正迎來從級聯架構向端到端生成的範式轉移。針對傳統 TTS 系統因“梅爾頻譜”中間表徵帶來的信息損耗與誤差累積，美團 LongCat 團隊於今日正式發佈並開源了 LongCat-AudioDiT（提供1B/3.5B 兩個版本）。該模型通過在波形潛空間直接建模，成功刷新了零樣本語音克隆的性能上限。

核心架構:徹底告別梅爾頻譜

LongCat-AudioDiT 拋棄了傳統的“預測聲學特徵+神經聲碼器”的多階段流程，構建了由 Wav-VAE（波形變分自編碼器） 與 DiT（擴散 Transformer） 組成的極簡架構。

高效 Wav-VAE: 採用全卷積設計，將24kHz 波形壓縮2000倍至11.7Hz 幀率。通過非參數捷徑分支與多目標對抗訓練，確保了重建波形在保持精確時頻結構的同時，擁有極佳的自然聽感。
語義增強 DiT: 模型創新性地將 UMT5文本編碼器的原始詞嵌入與頂層隱藏狀態融合，補齊了高層語義中丟失的音素細節，大幅提升了生成語音的可懂度。

推理優化:精準解決音色漂移

爲了進一步優化生成質量，團隊引入了兩項關鍵技術改進:

雙重約束機制: 識別並糾正了流匹配 TTS 長期存在的“訓練-推理不匹配”問題。通過在推理中強制重置提示區域（Prompt）隱變量，徹底解決了說話人音色漂移及穩定性不足的痛點。
自適應投影引導（APG）: 取代傳統的無分類器引導（CFG）。APG 能夠精準篩選引導信號中的有益分量，抑制導致音質劣化的信號，在不產生頻譜“過飽和”的前提下，顯著提升了語音的自然度。

性能表現:SOTA 級的克隆精度

在 Seed 基準測試中，LongCat-AudioDiT 展現了統治級的性能:

相似度（SIM）:3.5B 模型在 Seed-ZH 測試集達到 0.818，在 Seed-Hard 難句測試集達到 0.797，均超越了 Seed-TTS、CosyVoice3.5及 MiniMax-Speech 等知名模型。
準確率: 在英文 WER（1.50%）及中文難句 CER(6.04%)等指標上均處於行業第一梯隊。

值得關注的是，LongCat-AudioDiT 僅通過 ASR 轉寫的預訓練數據進行單階段訓練，便實現了優於多階段訓練模型的表現。目前，相關論文、代碼及模型權重已在GitHub與HuggingFace全面開放。

地址:

GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

美團 LongCat-AudioDiT 開源:首創波形潛空間建模，刷新音色克隆 SOTA

核心架構:徹底告別梅爾頻譜

推理優化:精準解決音色漂移

性能表現:SOTA 級的克隆精度

相關推薦

騰訊WorkBuddy突發登錄崩潰：官方致歉並補償受影響用戶 1000 積分

谷歌開源大模型 Gemma 4 官宣在即：參數量翻 4 倍

國內首個任務型醫療AI面世：百度健康發佈“有醫助理”

IBM發佈Granite 4.0 3B Vision：企業級文檔數據提取的新利器

Anthropic 測試“龍蝦” Conway：支持獨立 UI、Webhook 喚醒與自定義擴展標準