チャイナZ(ChinaZ.com)6月11日ニュース:テンセント混元チームは中山大学、香港科技大学と共同で、全く新しい画像から動画を生成するモデル「Follow-Your-Pose-v2」を発表しました。このモデルは、動画生成分野において、単一人物から複数人物への飛躍的な進歩を実現し、集合写真の人物全員を同時に動画の中で動かすことができます。

主な特徴:

  • 複数人物の動画動作生成に対応: 推論時間を短縮しながら、複数人物の動画動作を生成します。

  • 高い汎化能力: 年齢、服装、人種、背景の複雑さ、動作の複雑さに関わらず、高品質な動画を生成します。

  • 日常生活の写真/動画で使用可能: モデルの学習と生成には、日常生活の写真(スナップ写真を含む)や動画を使用でき、高品質な画像/動画を探す必要がありません。

  • 人物の遮蔽を正確に処理: 1枚の画像に複数の人物が互いに重なり合っている場合でも、正しい前後関係を持つ遮蔽された画像を生成します。

image.png

技術的な実現:

このモデルは「光流ガイド」を用いて背景の光流情報を導入することで、カメラの揺れや背景の不安定さがあっても、安定した背景アニメーションを生成します。

「推論グラフガイド」と「深度マップガイド」を用いることで、画像内の人物の空間情報と複数キャラクターの空間的位置関係をより正確に理解し、複数キャラクターのアニメーションと体の遮蔽の問題を効果的に解決します。

評価と比較:

研究チームは、約4000フレームの複数キャラクター動画を含む新しいベンチマークMulti-Characterを提案し、複数キャラクター生成の効果を評価しました。

実験結果によると、「Follow-Your-Pose-v2」は、2つの公開データセット(TikTokとTED講演)と7つの指標において、最新の技術を35%以上上回る性能を示しました。

応用分野:

画像から動画を生成する技術は、映画制作、拡張現実、ゲーム制作、広告など、多くの業界で幅広い応用が期待されており、2024年に注目されるAI技術の1つです。

その他情報:

テンセント混元チームは、文言から画像を生成するオープンソースの大規模モデル(混元DiT)の高速化ライブラリも公開し、推論効率を大幅に向上させ、画像生成時間を75%短縮しました。

混元DiTモデルの使用ハードルが下がり、ユーザーはHugging Faceの公式モデルライブラリで3行のコードでモデルを呼び出すことができます。

論文アドレス:https://arxiv.org/pdf/2406.03035

プロジェクトページ:https://top.aibase.com/tool/follow-your-pose