アリババの通義实验室は先日、新しいデジタルヒューマン動画生成大規模モデル「OmniTalker」を発表しました。この革新的なモデルの中核は、参照動画をアップロードするだけで、動画中の人物の表情、音声、話し方を正確に模倣できる点にあります。
従来のデジタルヒューマン制作プロセスと比較して、OmniTalkerは制作コストを大幅に削減し、生成コンテンツのリアル感とインタラクティブな体験を向上させ、幅広いニーズに対応します。
OmniTalkerの使用は非常に簡単です。ユーザーはプラットフォームに参照動画をアップロードするだけで、それに同期した音声と動画コンテンツを生成できます。現在、このプロジェクトは魔搭社区とHuggingFaceなどのプラットフォームで体験版が公開されており、ユーザーが自由に使用できる複数のテンプレートも提供されています。すべて無料です。この技術の素晴らしさをより直感的に理解してもらうために、アリババ通義实验室はいくつかのサンプル動画を公開しており、視聴者は動画中の人物がAI生成なのか実写なのかをほとんど見分けることができません。これは非常に衝撃的です。
このモデルの開発背景は、近年における言語大規模モデルの急速な発展と、バーチャルYouTuberやバーチャルアシスタントの利用拡大にあります。しかし、従来のテキスト駆動型デジタルヒューマン生成研究は比較的少なく、従来の方法では通常、カスケード型のパイプライン方式が採用されており、音声と映像のずれ、話し方の不一致などの問題が発生しやすいものでした。OmniTalkerは、双方向DiTアーキテクチャを導入することで、テキストと参照動画から同時に同期した音声と動画を生成し、これらの技術的なボトルネックを克服しています。
モデル構造において、OmniTalkerは3つの主要な部分で構成されています。まず、モデルは音声特徴と視覚特徴を抽出し、両者の時間的な完璧な同期を保証します。次に、多様な特徴融合モジュールを採用することで、音声と動画の統合効果を高めています。最後に、事前学習済みのデコーダーは、合成された音声・動画の特徴を効率的に元のフォーマットに変換し、高品質な出力を保証します。
実験データの比較により、OmniTalkerは音声生成と視覚効果の両方で優れた性能を示し、より低いエラー率とより高い音声類似度を示しており、ゼロショット条件下での強力な能力をさらに証明しています。
論文:https://arxiv.org/abs/2504.02433v1
プロジェクトページ:https://humanaigc.github.io/omnitalker
体験ページ:https://huggingface.co/spaces/Mrwrichard/OmniTalker