先日、研究チームはL4GMと呼ばれる大規模4Dガウス再構成モデルを発表しました。このモデルは、単一視点のビデオ入力からアニメーションオブジェクトを生成でき、非常に印象的な効果を実現しています。

このモデルの鍵となるのは、革新的なデータセットと簡素化された設計です。これにより、単方向伝達をわずか1秒で完了することが可能になり、同時に出力されるアニメーションオブジェクトの高品質も保証されています。

ビデオから4D合成へ

L4GMは数秒でビデオから4Dオブジェクトを生成できます。以下のビデオ例では、元のビデオのターゲットオブジェクトと、対応する生成された4Dガウス再構成モデルを確認できます。

長尺、高FPS、柔軟なビデオの再構成

さらに、10秒間の30fpsビデオの再構成も可能です。以下のビデオ例をご覧ください。

4D補間

研究チームは、フレームレートを3倍に向上させる4D補間モデルも開発しました。以下のビデオ例をご覧ください。

左図:補間前  右図:補間後

多視点ビデオデータセットの構築

研究チームは、Objaverseから厳選されたレンダリングされたアニメーションオブジェクトを含む、多視点ビデオのデータセットを構築しました。このデータセットは、48個の視点から見た4万4千個もの多様なオブジェクト、合計1億1000万個のアニメーション、そして合計1億2千万個のビデオ、3億フレームのデータを含んでいます。このデータセットに基づき、L4GMは、事前にトレーニングされた3D大規模再構成モデルLGMを基盤として構築され、多視点画像入力から3Dガウス楕円体を生成します。

L4GMは、低fpsでサンプリングされたビデオフレーム上に各フレームの3Dガウス飛沫表現を生成し、その表現を高fpsにアップサンプリングして時間的な滑らかさを実現します。

モデルの時間的一貫性を学習させるために、研究チームは基本的なLGMに時間的自己注意層を追加し、各時間ステップの多視点レンダリング損失を利用してモデルをトレーニングしました。補間モデルをトレーニングすることで、この表現を高フレームレートにアップサンプリングし、中間的な3Dガウス表現を生成します。

研究チームは、合成データでトレーニングされたL4GMが、実世界のビデオでも良好な汎化能力を示し、高品質のアニメーション3Dオブジェクトを生成することを実証しました。このモデルは、単一視点ビデオと単一時間ステップの多視点画像を入力として受け取り、一連の4Dガウス確率分布を出力します。

技術フレームワーク

image.png

このモデルは、単一視点ビデオと単一時間ステップの多視点画像を入力として受け取り、一連の4Dガウスを出力します。U-Netアーキテクチャを採用し、クロスビュー自己注意機構によりビューの一貫性を、時間的クロス空間的自己注意機構により時間的一貫性を達成しています。

image.png

L4GMは自己回帰的再構成を可能にし、最後のガウスの多視点レンダリングを次の再構成の入力として使用します。2つの連続する再構成間には1フレームのオーバーラップがあります。さらに、研究チームは4D補間モデルも開発しました。補間モデルは、再構成結果からレンダリングされた補間多視点ビデオを受け取り、補間ガウスを出力します。

L4GMの適用可能なシナリオ:

ビデオコンテンツ生成:L4GMは、単一視点ビデオ入力からアニメーションオブジェクトの4Dモデルを生成できます。これは、ビデオ特殊効果制作、ゲーム開発などの分野で幅広く応用できます。例えば、特殊効果アニメーションの生成、仮想シーンの構築などに利用できます。

ビデオ再構成と修復:L4GMは、長尺、高フレームレートのビデオを再構成でき、ビデオ修復と復元、ビデオ品質と鮮明度の向上に使用できます。これは、映画修復、ビデオ圧縮、ビデオ処理において非常に役立つ可能性があります。

ビデオ補間:トレーニングされた4D補間モデルにより、L4GMはビデオのフレームレートを増やし、ビデオをよりスムーズにすることができます。これは、ビデオ編集、スローモーション/高速モーション効果の制作などで潜在的な応用があります。

3Dアセット生成:L4GMは、高品質のアニメーション3Dアセットを生成できます。これは、仮想現実(VR)、拡張現実(AR)アプリケーション、およびゲーム開発における3Dモデル生成に非常に役立ちます。

製品へのアクセス:https://top.aibase.com/tool/l4gm