先日、Meta Reality Labsの研究チームは、単一の写真から最大1K解像度の高密度周回ビデオを生成できる革新的な生成モデル「Pippo」を発表しました。この画期的な技術は、コンピュータビジョンと画像生成分野における重要な進歩を示しています。

QQ_1739759486317.png

Pippoモデルの中核は、マルチビュー拡散トランスフォーマーのデザインにあります。従来の生成モデルとは異なり、Pippoは追加の入力(例えば、適合パラメータモデルや画像撮影時のカメラパラメータ)を必要としません。ユーザーは普通の1枚の写真を提供するだけで、システムは自動的に多視点のビデオ効果を生成し、より生き生きとした立体的な人物像をユーザーに提示します。

開発者の利用を容易にするため、Pippoは今回コードのみのバージョンで公開され、事前学習済み重みは提供されていません。研究チームは、必要なモデル、設定ファイル、推論コード、およびAva-256データセットのサンプルトレーニングコードを提供しています。開発者は簡単なコマンドでコードリポジトリをクローンして設定することで、迅速にトレーニングとアプリケーションを開始できます。

Pippoプロジェクトの今後の計画には、コードの整理とクリーンアップ、および事前学習済みモデル向けの推論スクリプトのリリースが含まれます。これらの改善により、ユーザーエクスペリエンスがさらに向上し、この技術の実用的なアプリケーションにおける広範な使用が促進されます。

プロジェクト:https://github.com/facebookresearch/pippo

重要なポイント:

🌟 Pippoモデルは、追加の入力なしで、普通の1枚の写真から高解像度の多視点ビデオを生成できます。

💻 コードのみの公開で、事前学習済み重みはありません。開発者は自分でモデルをトレーニングして適用できます。

🔍 チームは今後、ユーザーエクスペリエンスを向上させるため、さらなる機能と改善を計画しています。