最近,在 VR 和 AR 技術領域,一項新研究成果引發了廣泛關注,它就是 HoloTime。這一創新框架致力於解決當前4D 內容生成的難題,有望重塑我們在虛擬世界中的交互體驗。今天,AIbase就來深入探究一下,HoloTime 究竟有什麼神奇之處。
爲啥我們需要 HoloTime?
現在的 VR 和 AR 技術越來越火啦,大家都想在虛擬世界裏獲得更逼真、更自由的體驗。就像玩遊戲的時候,要是能真的 “走進” 遊戲場景,和裏面的一切互動,那得多爽!而這就需要超厲害的4D 內容,把時間維度也加到3D 場景裏。
但理想很豐滿,現實很骨感。目前4D 內容的生成技術還不太給力。現有的擴散模型大多隻能搞定靜態3D 場景,或者在小範圍內展示物體的動態變化,根本沒辦法給我們帶來那種完全沉浸其中的體驗。爲啥呢?主要是高質量的標註數據太少啦,尤其是大規模4D 場景的數據,簡直是稀缺資源。所以現在的4D 生成方法,要麼只能生成物體的動態,要麼就只能展示固定視角的場景,看得人乾着急!
那怎麼解決這個問題呢?研究人員靈機一動,想到了全景圖像。全景圖像有360度的視野,要是能給它加上動態效果,不就能打造出超沉浸的4D 體驗了嗎?於是,HoloTime 就誕生啦!
HoloTime 是如何 “變身” 的?
HoloTime 的實現過程就像一場精彩的魔法表演,每一步都暗藏玄機!
360World 數據集:魔法表演的 “祕密道具”
巧婦難爲無米之炊,想要訓練出厲害的模型,得有高質量的數據。研究人員專門打造了360World 數據集,這裏面全是固定攝像頭拍攝的全景視頻,一共有7497個高質量的視頻片段,包含5380909幀畫面,簡直是個 “數據寶庫”!
這些視頻涵蓋了各種真實場景,從美麗的自然風光到繁華的城市街景,應有盡有。而且每個視頻都配有詳細的文本描述,就像給每個場景都貼上了小標籤,方便模型學習。研究人員先在 YouTube 上 “大海撈針”,找到合適的視頻,然後用 ShareGPT4Video 這個超智能的大模型對視頻進行分析,生成詳細的文本提示,最後再用大語言模型加工一下,去掉那些和攝影相關的描述,留下最純粹的場景內容和動態描述。有了這個數據集,模型訓練就有了充足的 “糧草”!
全景動畫生成器(Panoramic Animator):圖像變視頻的 “神奇畫筆”
有了數據,接下來就是讓全景圖像 “動” 起來啦!這就得靠全景動畫生成器,它就像一支神奇的畫筆,能把靜態的全景圖像變成動態的全景視頻。
它有三個 “魔法技能”:
混合數據微調(Hybrid Data Fine-tuning):普通視頻和全景視頻的數據分佈差別很大,直接用全景視頻數據微調模型,就像讓一個習慣了吃米飯的人突然改吃麪包,可能會 “消化不良”。所以研究人員找來了 ChronoMagic-Pro 數據集中的風景延時視頻,這些視頻雖然是用普通相機拍的,但和全景視頻在語義和時間上有很多相似之處。把它們和360World 數據集混合在一起,就像給模型準備了一份營養均衡的 “大餐”,讓模型能更好地學習動態效果。
兩階段運動引導生成(Two-Stage Motion Guided Generation):全景視頻的視角是球形的,裏面包含了超多的空間信息,但這些信息在不同分辨率下,模型學習起來的效果可不一樣。低分辨率時,模型更容易學到全局的運動信息;高分辨率時,模型能捕捉到更多的空間細節。所以,研究人員想出了一個兩階段的生成方法。先讓模型生成一個低分辨率的粗糙視頻,確定全局的運動方向,就像畫畫先畫個草圖;然後再生成高分辨率的細化視頻,添加豐富的細節,讓視頻看起來更逼真。這樣一來,生成的視頻在全局上有強烈的動態效果,在局部細節上也處理得非常好。
全景循環技術(Panoramic Circular Techniques):全景視頻的左右兩端連接得是否自然,對用戶的體驗影響很大。要是連接處有明顯的斷層,就像看電影突然卡了一下,別提多難受了。所以,全景動畫生成器在生成視頻的時候,會在左右兩端創建重複的部分,在每次去噪步驟之後進行融合,讓兩端的過渡更加自然。而且,還會修改卷積層的填充操作,確保像素級的連續性。最後,再把重複的部分裁剪掉,就得到了無縫連續的全景視頻啦!
全景時空重建(Panoramic Space-Time Reconstruction):視頻變4D 場景的 “時空轉換器”
視頻有了,接下來就是把它變成4D 場景,這時候全景時空重建技術就派上用場啦!它就像一個時空轉換器,能把全景視頻 “升級” 成4D 場景。
空間對齊深度估計(Space Aligned Depth Estimation):要估計全景圖像的深度可不容易,研究人員借鑑了360MonoDepth 的方法,把全景圖像投影成多個透視圖像,分別估計深度,再把這些深度圖對齊、反投影,形成全景深度圖。在這個過程中,還會給每個深度圖分配一個可學習的縮放因子和偏移因子,用一個可學習的多層感知器(MLP)來優化深度值,讓深度估計更準確。
時空深度估計(Space-Time Depth Estimation):對於全景視頻來說,不僅每幀的深度要準確,幀與幀之間的深度還要保持一致,這就是時空深度估計要解決的問題。研究人員先用全景光流估計模型計算出視頻中像素的運動信息,確定哪些區域有運動變化。然後,根據這些運動區域,自適應地選擇合適的透視視角進行深度估計,同時參考前面幀的深度信息,確保深度的時空一致性。
4D 場景重建(4D Scene Reconstruction):完成深度估計後,就可以把全景視頻和它的深度圖轉換成帶有時間屬性的4D 點雲啦,這就是4D 場景的初始狀態。研究人員選擇時空高斯(Spacetime Gaussian)來表示4D 場景,在訓練過程中,把視頻投影到不同視角進行監督,通過擾動相機位置生成新的視角,讓場景更加完整、渲染效果更穩定。
HoloTime 有多牛?
爲了驗證 HoloTime 的實力,研究人員進行了一系列實驗,結果簡直驚豔!
在全景視頻生成方面,HoloTime 和360DVD 這個文本驅動的全景視頻生成方法進行了對比。研究人員用大語言模型生成了一堆文本提示,讓兩個方法分別生成全景視頻。從定性的角度看,HoloTime 生成的視頻運動更加連貫,沒有那些奇怪的瑕疵。用戶研究的結果也顯示,HoloTime 在圖形質量、幀一致性、左右連續性、內容分佈和運動模式等方面都表現出色。從定量的角度看,HoloTime 在多個評估指標上都超過了360DVD,生成的視頻在細節和整體運動幅度上都更勝一籌。
在4D 場景生成方面,HoloTime 和基於光流的3D 動態圖像技術3D-Cinemagraphy 進行了對比。在 “圓形” 和 “放大” 兩種設置下,3D-Cinemagraphy 主要適用於創建流體效果,應用場景比較侷限。而 HoloTime 利用視頻擴散模型,能生成更復雜的紋理變化和空間運動,在生成4D 場景的質量和美學評分上都遠超3D-Cinemagraphy,用戶也更青睞 HoloTime 生成的場景。
研究人員還對 HoloTime 進行了消融實驗,看看裏面的各個技術到底有啥用。結果發現,混合數據微調能增強視頻的時間細節和連貫性,兩階段運動引導生成對整體運動有重要影響,全景循環技術能有效防止視頻出現不連續的接縫,時空深度估計中的時間損失項能保證深度的時間一致性。
未來展望:HoloTime 的無限可能
HoloTime 的出現,爲 VR 和 AR 技術帶來了新的希望。它能把靜態的全景圖像變成超沉浸的4D 場景,讓我們在虛擬世界裏的體驗更加真實、自由。雖然目前它還有一些可以提升的地方,但隨着技術的不斷髮展,未來 HoloTime 可能會在更多領域大顯身手,比如虛擬旅遊、沉浸式遊戲、虛擬會議等等。說不定以後我們足不出戶,就能通過 HoloTime “親臨” 世界各地的美景,和遠方的朋友在虛擬世界裏面對面交流,想想就超激動!寶子們,讓我們一起期待 HoloTime 帶來的更多驚喜吧!
論文地址:https://arxiv.org/pdf/2504.21650