來自香港科技大學和清華大學的研究團隊推出了一項名爲 DimensionX 的全新 AI 框架,僅憑一張圖片便能生成充滿細節的3D 和4D 場景,爲遊戲開發、虛擬現實和影視製作等領域帶來革命性的突破!

DimensionX的核心魔法是可控視頻擴散技術。 它就像一個技藝高超的“空間魔法師”,能夠從單張圖片中提取空間和時間信息,並將其轉化爲連續的視頻幀。 

這些視頻幀就像電影膠片一樣,記錄了場景的各個角度和動態變化,最終組合成完整的3D或4D場景。

爲了精準掌控“空間魔法”,DimensionX還配備了兩個強大的“魔法棒”: S-Director 和 T-Director。 S-Director 負責空間維度,可以控制視角的移動,就像你拿着相機在場景中自由穿梭一樣。

 而T-Director 則負責時間維度,可以控制物體的運動,讓場景“活”起來。

更厲害的是,DimensionX還可以將這兩個“魔法棒”組合使用,生成更加複雜和逼真的場景! 

image.png

例如,你可以讓視角繞着物體旋轉,同時物體也在運動,就像你置身於一個真實的4D世界!

當然,DimensionX的“魔法”還不止於此。 它還針對真實場景進行了優化,例如設計了軌跡感知機制,能夠處理各種複雜的相機運動,讓生成的3D場景更加真實可信。 

此外,DimensionX還引入了身份保持去噪策略,可以保證4D場景中物體外觀的一致性,避免出現“穿幫”的尷尬情況。

DimensionX的出現,無疑爲3D和4D場景生成領域帶來了革命性的突破。 它不僅操作簡單,效果驚豔,而且應用範圍廣泛,可以用於遊戲開發、虛擬現實、影視製作等多個領域。 相信在不久的將來,DimensionX將帶領我們進入一個更加精彩的“空間魔法”世界!

項目地址:https://chenshuo20.github.io/DimensionX/

論文地址:https://arxiv.org/pdf/2411.04928