復旦大学と百度社の研究者らが共同開発した、Hallo2という全く新しいAIモデルが登場しました。このモデルは、最大数時間の長さを持つ4K解像度の人物アニメーションを生成でき、音声やテキストのプロンプトで精密に制御できます。

image.png

これまで、高品質の人物アニメーションの生成には膨大な時間と人件費が必要でした。しかし、Hallo2の登場により、この状況は一変する可能性があり、映画制作、バーチャルアシスタント、ゲーム開発など、様々な分野に革命的な変化をもたらすと期待されています。

Hallo2モデルはlatent diffusion modelsを基礎として構築されており、以下のような革新的な技術が導入されています。

Patch-dropデータ拡張技術:モーションフレームをランダムに遮蔽することで、モデルが先行フレームの画像情報に過度に依存することを防ぎ、長時間シーケンスにおいても人物アニメーションの外観を安定的に維持します。

ガウスノイズ拡張技術:モーションフレームにガウスノイズを追加することで、画像ノイズやモーション歪みに対するモデルの堅牢性を高め、アニメーションの品質と一貫性をさらに向上させます。

VQGAN離散コードブック予測技術:VQGANモデルを時間次元へと拡張し、時間整合技術と組み合わせることで、高解像度ビデオの生成を実現し、画像の詳細を時間的に一貫性を持たせます。

テキストプロンプト制御機構:適応層正規化機構を導入することで、モデルがテキストプロンプトに基づいて人物の表情や動作を精密に制御し、アニメーションにより表現力と制御性を持たせます。

QQ20241018-111835.jpg

Hallo2モデルの優れた性能は、HDTF、CelebV、そして研究者らが独自に作成した「Wild」データセットなど、複数の公開データセットで検証済みです。実験結果から、Hallo2は高品質で長シーケンスの人物アニメーション生成において、既存のあらゆる手法を凌駕することが示されています。

Hallo2モデルの発表は、AI人物アニメーション生成技術が新たな段階に到達したことを意味します。今後、研究者らはモデルの効率性と制御性のさらなる最適化を図るとともに、より多くの分野への応用を探求していく予定です。

プロジェクトアドレス:https://fudan-generative-vision.github.io/hallo2/#/

論文アドレス:https://arxiv.org/pdf/2410.07718