音声生成技術は、級連構造からエンドツーエンド生成へのパラダイムの転換を迎えています。従来のTTSシステムが「メルスペクトログラム」という中間表現によって引き起こす情報損失や誤差の蓄積に対して、美团 LongCat チームは本日、LongCat-AudioDiT(1B/3.5Bの2つのバージョンを提供)を正式に公開し、オープンソース化しました。 このモデルは波形の潜在空間を直接モデリングすることで、ゼロサンプルの音声クローンの性能上限を刷新しました。

コアアーキテクチャ:メルスペクトログラムからの完全な離脱
LongCat-AudioDiTは、従来の「音響特徴の予測+ニューラルボイサー」の多段階プロセスを廃止し、Wav-VAE(波形変分自己符号化器)とDiT(拡散トランスフォーマー)で構成される極めてシンプルなアーキテクチャを構築しました。
効率的な Wav-VAE: 全畳み込み設計を採用し、24kHzの波形を2000倍圧縮して11.7Hzのフレームレートにします。非パラメトリックなショートカットブランチとマルチターゲット対抗トレーニングにより、再構築された波形は正確な時間周波数構造を保持しながら、非常に自然な聴感を得ることができます。
意味的強化 DiT: UMT5テキストエンコーダーの元の単語埋め込みと上位層の隠れ状態を統合するという画期的なアプローチにより、高次元の意味情報で失われた音素の詳細を補完し、生成された音声の理解性を大幅に向上させました。
推論最適化:音色の漂移を正確に解決
生成品質をさらに最適化するために、チームは2つの重要な技術改善を導入しました:
二重制約機構: 流れマッチングTTSにおいて長期間存在していた「トレーニングと推論の不一致」問題を特定・修正しました。推論時にプロンプト領域(Prompt)の隠れ変数を強制的にリセットすることで、話者の音色の漂移や安定性不足の問題を完全に解消しました。
自己適応投影ガイド(APG): 従来の分類器なしガイド(CFG)に代わって、APGはガイド信号中の有益な成分を正確に選別し、音質劣化を引き起こす信号を抑制します。スペクトルの「過飽和」を発生させることなく、音声の自然さを大幅に向上させます。
性能表現:SOTAレベルのクローン精度
Seedベンチマークテストにおいて、LongCat-AudioDiTは支配的な性能を示しました:
類似度(SIM): 3.5BモデルはSeed-ZHテストセットで0.8180.797
正確度: 英語のWER(1.50%)および中国語の難文CER(6.04%)など、業界トップクラスの指標を達成しています。
注目すべき点は、LongCat-AudioDiTはASR転記された事前トレーニングデータのみを使用して単一段階トレーニングを行ったにもかかわらず、複数段階トレーニングモデルよりも優れた性能を達成したことです。現在、関連論文、コードおよびモデルウェイトは
URL:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT
