チャイナZ(ChinaZ.com)6月11日ニュース:テンセント混元チームは中山大学、香港科技大学と共同で、全く新しい画像から動画を生成するモデル「Follow-Your-Pose-v2」を発表しました。このモデルは、動画生成分野において、単一人物から複数人物への飛躍的な進歩を実現し、集合写真の人物全員を同時に動画の中で動かすことができます。
主な特徴:
複数人物の動画動作生成に対応: 推論時間を短縮しながら、複数人物の動画動作を生成します。
高い汎化能力: 年齢、服装、人種、背景の複雑さ、動作の複雑さに関わらず、高品質な動画を生成します。
日常生活の写真/動画で使用可能: モデルの学習と生成には、日常生活の写真(スナップ写真を含む)や動画を使用でき、高品質な画像/動画を探す必要がありません。
人物の遮蔽を正確に処理: 1枚の画像に複数の人物が互いに重なり合っている場合でも、正しい前後関係を持つ遮蔽された画像を生成します。
技術的な実現:
このモデルは「光流ガイド」を用いて背景の光流情報を導入することで、カメラの揺れや背景の不安定さがあっても、安定した背景アニメーションを生成します。
「推論グラフガイド」と「深度マップガイド」を用いることで、画像内の人物の空間情報と複数キャラクターの空間的位置関係をより正確に理解し、複数キャラクターのアニメーションと体の遮蔽の問題を効果的に解決します。
評価と比較:
研究チームは、約4000フレームの複数キャラクター動画を含む新しいベンチマークMulti-Characterを提案し、複数キャラクター生成の効果を評価しました。
実験結果によると、「Follow-Your-Pose-v2」は、2つの公開データセット(TikTokとTED講演)と7つの指標において、最新の技術を35%以上上回る性能を示しました。
応用分野:
画像から動画を生成する技術は、映画制作、拡張現実、ゲーム制作、広告など、多くの業界で幅広い応用が期待されており、2024年に注目されるAI技術の1つです。
その他情報:
テンセント混元チームは、文言から画像を生成するオープンソースの大規模モデル(混元DiT)の高速化ライブラリも公開し、推論効率を大幅に向上させ、画像生成時間を75%短縮しました。
混元DiTモデルの使用ハードルが下がり、ユーザーはHugging Faceの公式モデルライブラリで3行のコードでモデルを呼び出すことができます。
論文アドレス:https://arxiv.org/pdf/2406.03035
プロジェクトページ:https://top.aibase.com/tool/follow-your-pose