香港科技大学と清華大学の研究チームが、DimensionXという画期的なAIフレームワークを発表しました。一枚の画像から、細部まで精緻な3Dおよび4Dシーンを生成できるこのフレームワークは、ゲーム開発、仮想現実、映画制作などの分野に革命をもたらすでしょう!

DimensionXの中核となる技術は、制御可能なビデオ拡散技術です。まるで熟練の「空間魔法使い」のように、一枚の画像から空間と時間情報を抽出し、連続したビデオフレームに変換します。

これらのビデオフレームは映画フィルムのように、シーンの様々な角度と動的な変化を記録し、最終的に完全な3Dまたは4Dシーンを構成します。

この「空間魔法」を正確に制御するために、DimensionXは2つの強力な「魔法の杖」、S-DirectorとT-Directorを備えています。S-Directorは空間次元を担当し、視点の移動を制御します。まるでカメラを持ってシーンの中を自由に動き回れるようです。

一方、T-Directorは時間次元を担当し、物体の動きを制御してシーンに「命」を吹き込みます。

さらに驚くべきことに、DimensionXではこれらの「魔法の杖」を組み合わせて、より複雑でリアルなシーンを生成できます!

image.png

例えば、視点が物体の周りを回転しながら、同時に物体が動く様子を生成できます。まるで本当の4D世界にいるかのような体験です!

もちろん、DimensionXの「魔法」はこれだけではありません。現実のシーンに合わせて最適化されており、例えば軌跡感知メカニズムにより、複雑なカメラの動きにも対応し、よりリアルで信頼性の高い3Dシーンを生成できます。

さらに、DimensionXはアイデンティティ保持ノイズ除去戦略を採用しており、4Dシーンにおける物体の外観の一貫性を保ち、「ミス」を防ぎます。

DimensionXの登場は、3Dおよび4Dシーン生成分野に革命的な進歩をもたらしました。操作が簡単で、効果は驚くほど素晴らしく、ゲーム開発、仮想現実、映画制作など、幅広い分野で応用できます。近い将来、DimensionXが私たちをさらに素晴らしい「空間魔法」の世界へと導いてくれるでしょう!

プロジェクトアドレス:https://chenshuo20.github.io/DimensionX/

論文アドレス:https://arxiv.org/pdf/2411.04928