最近、バイトダンスのデジタル人間チームは注目を集めるOmniHuman-1.5をリリースしました。これは前回のOmniHuman-1のアップグレード版であり、AI動画生成分野で再び注目を集めています。OmniHuman-1.5は単一の画像と音声入力を使って高精細な動的ビデオを生成し、動作の協調性や表現力を向上させ、多くの革新的な機能を追加しています。映画制作、仮想キャスター、教育トレーニング、広告マーケティングなど、さまざまな分野に新たな可能性をもたらしています。

プロジェクトアドレス:https://omnihuman-lab.github.io/v1_5/
技術の進化:現実感と汎化能力が大幅に向上
OmniHuman-1.5はその前身の核心技術を引き継ぎ、単一の画像と音声から生きた人物の動画を生成します。前世代と比較して、OmniHuman-1.5は現実感と汎化能力において顕著な向上を遂げました。バイトダンスチームが最適化した多モード運動条件混合学習戦略により、生成された動画は動作の自然さ、口元の同期、感情表現の面でより詳細で現実的なものとなっています。真実の人間の姿勢だけでなく、アニメキャラクターや3Dカートゥーンにも対応し、音声内容に非常に合った動的な効果を生成し、非常に高い視覚品質を提供します。
画期的な機能:二人称のシーンと長時間動画生成
OmniHuman-1.5の大きな特徴の一つは、二人の音声駆動をサポートすることです。従来のAI動画生成技術は主に一人称のシーンに限られていましたが、OmniHuman-1.5は初めて二人の音声入力に基づいた動画生成を実現し、複数のキャラクター間のインタラクティブな動作や表情を正確に捉えることができ、多人数のシーンでのパフォーマンスに技術的サポートを提供します。また、この技術は1分以上の動画を生成することができ、フレーム間接続戦略によって長時間の動画の連続性とアイデンティティの一貫性を確保し、スピーチ動画や音楽MVなどのより複雑な応用ニーズに対応します。
感情認識とテキストプロンプト:よりスマートなクリエイティブ体験
OmniHuman-1.5は機械的な動きの生成にとどまらず、音声中の感情を認識し、それを動画で表現することができます。例えば、音声のトーンや感情に基づいて、システムは自動的に人物の顔の表情や身体の動きを調整し、動画に感染力を持たせます。また、新たに導入されたテキストプロンプト機能により、ユーザーは文章による説明を通じて動画の内容をさらにカスタマイズすることが可能になります。例えば、シーンのスタイルや動きの詳細を指定することができ、クリエイターにさらに柔軟性を提供します。
多様なスタイルのサポート:人間から非人間まで網羅
人間の姿勢だけでなく、OmniHuman-1.5は非人間の姿勢(例:アニメキャラクターや3Dカートゥーン)の処理にも優れています。システムは異なる芸術スタイルでも動作の自然な一貫性を保ち、口元と動きを音声に完璧に同期させることができます。この特性により、ゲーム、仮想現実(VR)、拡張現実(AR)の場面で広く使用され、ユーザーに没入型の体験を提供します。
幅広い応用:多業界のコンテンツ制作を支援
OmniHuman-1.5の応用可能性は非常に魅力的です。映画制作では、キャラクターのアニメーションや特殊効果の制作に使用され、音声と同期した仮想俳優の動画を迅速に生成できます。仮想キャスターおよびエンタメシーンでは、クリエイターはこれを活用して生き生きとした人物像を生成し、配信時のインタラクティブ性を強化できます。教育およびトレーニングでは、OmniHuman-1.5は生動な身振り手振りを持つ教材動画を生成し、コンテンツの魅力と理解しやすさを向上させます。広告およびマーケティングでは、カスタマイズ可能な仮想人物を使用することでブランド宣伝をサポートし、転換率を著しく向上させます。
技術の将来と課題
