メイドゥンロングカットモデルチームは、今日、商用向けのデジタル人間動画生成モデル「LongCat-Video-Avatar1.5」を正式にオープンソース化しました。 このバージョンは、オープンソースのSOTA(最高水準)から商業的な実際の応用への完全な飛躍を実現し、唇の同期、物理的合理性、長動画の安定性、多人数のインタラクションおよび効率的な推論などの主要な次元において大幅な向上を達成しました。

3つの能力のアップグレード:商業化の課題に直面

デジタル人間が本当に多様なリアルなシナリオに適応できるようにするため、LongCat-Video-Avatar1.5は従来のデジタル人間動画における「フリッカー、歪み、高い遅延」などの難点に対し、3つの全面的なアップグレードを行いました。

  1. 基本体験の商用化(音声符号化エンコーダーのアップグレード)

    モデルは音声特徴抽出符号化エンコーダーをWav2Vec2からWhisper-largeにアップグレードしました。より大きなパラメータと豊富な多言語の事前知識により、モデルは音素の変化や発音のリズムを細かく捉えることができます。これにより、長文や早口、歌など複雑な音声下での唇の動きがより正確になり、顔、頭部、体の動作と音声の自然な協調が可能となり、長動画でよくあるフレームスキップやアイデンティティのずれが大幅に減少します。

  2. 強力なオープンドメインの汎化(多段階のデータ増強システム)

    真人、仮想アイドル、アニメキャラクター、動物などの多様な主体を安定して処理するために、チームは「オフラインラベリング」と「オンライン検証」を含む多段階のデータ処理プロセスを構築し、3種類のデータ増強を特異的に導入しました:

    • 多人データ: 主動的な話者検出を利用して、複数人がいる場面での音声と映像の矛盾を解消し、話者と聴衆を正確に区別します。

    • 静黙データ: 会話をしない動画を抽出し、モデルに無音状態での自然な微表情を学ばせ、会話をしないキャラクターの口の動きを避けるようにします。

    • 感情データ: フレームレベルの感情認識を組み合わせて精査し、感情の変化を注入することで、モデルが音声と表情の深い関連性を理解できるようにします。

  3. 手と連続性の専門的な対応(GRPOの導入)

    ECライブストリーミングや製品展示などの頻繁に手を出す必要があるシナリオに適応するため、モデルはGRPO(人間の好みに一致)を導入し、報酬信号をフレームごとに細分化し、さらに最初のフレームの手の検出メカニズムを追加しました。これは手の歪み、局所構造の崩壊、動作の不連続性といった業界の課題を顕著に緩和します。

QQ20260522-110005.jpg

推論効率が15倍に上昇:高価な計算資源から離脱

商用級のアプリケーションにとってもう一つの重要な要素はコストです。LongCat-Video-Avatar1.5では、DMD(分布マッチング蒸留)技術を採用し、もともと50ステップかかっていた生成プロセスを8ステップに圧縮しました。また、従来の三モデル並列方式に代えて、1つの共有ベースモデル + 複数のLoRAアダプターのアーキテクチャを使用し、メモリ容量を大幅に解放しました。

実際のテストでは、モデルは約15倍の推論効率の向上を実現し、10秒の動画生成には約1分しかかかりません

権威あるベンチマーク評価:業界の先駆けモデルを上回る

EvalTalkerベンチマークに基づき、770人の評価者と10人の分野専門家がニュース、教育、エンタメなど複雑なシナリオを含む動画に対して構造化された品質分析を行いました。その結果、LongCat-Video-Avatar1.5はいくつかの主要な指標で驚くべき成果を示しました:

  • ユーザーの好みの勝率: Kling Avatar2.0との比較では65.9%、OmniHuman-1.5との比較では61.1%、HeyGenとの比較では54.3%です。

  • 単人・多人数シーンスコア: 単人シーンスコアは3.336で、HeyGenなどの製品よりもはるかに優れています。多人数シーンスコアは2.730で、InfiniteTalk(2.339)を大幅に上回っています。

  • 画面の安定性: 主体の変形率はわずか23.1%で、背景の変形率は9.4%です。フレームスキップ問題率は0.8%にまで低下し、すべての比較モデルの中で最も良い性能を示しています。

  • 音声と映像の協調性: 面部と身体の同期問題率は5.1%に低下し、唇の同期問題率は29.8%に低下し、従来の商用システムよりも優れています。

メイドゥンロングカットモデルチームは、LongCat-Video-Avatar1.5のオープンソース化はバージョンの更新だけでなく、世界中の開発者とクリエイターに共同構築を呼びかけるものであると述べました。チームはこのモデルが検証可能で改善可能な技術の基盤となることを望んでおり、デジタル人間動画の実際の応用の境界を一緒に拡大したいと考えています。

オープンソースリンク:

  • Github:https://github.com/meituan-longcat/LongCat-Video

  • HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

  • Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf

  • Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/

  • Modelscope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary