近日,研究團隊提出了一種名爲 L4GM 的大規模4D 高斯重建模型,該模型能夠從單視角視頻輸入中生成動畫對象,實現了令人印象深刻的效果。

該模型的關鍵在於創新性的數據集以及簡化的設計,使得在短短一秒內完成單向傳遞成爲可能,同時保證了輸出動畫物體的高質量。

視頻到4D合成

L4GM 可在幾秒鐘內從視頻中生成4D 對象,如下視頻示例,就可以看到原視頻中目標對象,以及對應生成4D高斯重建模型。

重建長、高 FPS、靈活度視頻

並且重建10秒長的30fps 視頻。如下視頻示例,

4D 插值

該團隊還訓練一個4D 插值模型,將幀速率提高3倍。如下視頻示例,

左圖:插值前。右:插值後

構建視角視頻數據集

研究團隊構建了一個包含多視角視頻的數據集,其中包含來自 Objaverse 的精心製作、渲染的動畫物體。這個數據集展示了4.4萬個多樣化的物體,涵蓋了48個視角下的110,000個動畫,總共產生了1.2億個視頻,共計3億幀。基於此數據集,L4GM 直接在已經預訓練的3D 大規模重建模型 LGM 的基礎上構建,從多視角圖像輸入中輸出3D 高斯橢球體。

L4GM 通過在低 fps 採樣的視頻幀上生成每幀的3D 高斯飛濺表示,然後將表示上採樣到更高的 fps 以實現時間上的平滑性。

爲了幫助模型學習時間上的一致性,研究團隊在基礎 LGM 上添加了時間自注意力層,並利用每個時間步的多視角渲染損失來訓練模型。通過訓練一個插值模型,該表示被上採樣到更高的幀率,從而產生中間的3D 高斯表示。

研究團隊展示了 L4GM 在合成數據上訓練後在野外視頻上的良好泛化能力,產生了高質量的動畫3D 物體。該模型接受單視角視頻和單時間步多視角圖像作爲輸入,並輸出一組4D 高斯概率分佈。

技術框架


image.png

該模型將單視圖視頻和單時間步長多視圖圖像作爲輸入,並輸出一組4D 高斯。它採用U-Net架構,使用跨視圖自注意力實現視圖一致性,使用時間跨時空自注意力實現時間一致性。

image.png

L4GM 允許自迴歸重建,使用最後一個高斯的多視圖渲染作爲下一個重建的輸入。兩個連續的重建之間存在一幀重疊。此外,研究團隊還訓練了一個4D 插值模型。插值模型接收從重建結果渲染的插值多視圖視頻,並輸出插值高斯。

L4GM可應用場景包括:

視頻內容生成:L4GM 可以從單視圖視頻輸入中生成動畫對象的4D 模型,這在視頻特效製作、遊戲開發等領域中具有廣泛的應用。例如,可以用於生成特效動畫、虛擬場景構建等。

視頻重建與修復:L4GM 能夠重建長時間、高幀率的視頻,可以用於視頻修復和恢復,提高視頻質量和清晰度。這對於電影修復、視頻壓縮和視頻處理中可能非常有用。

視頻插值:通過訓練的4D 插值模型,L4GM 可以增加視頻的幀率,使視頻更加流暢。這在視頻編輯、慢動作 / 快動作效果製作等方面有着潛在的應用。

3D 資產生成:L4GM 可以生成高質量的動畫3D 資產,這對於虛擬現實(VR)、增強現實(AR)應用和遊戲開發中的3D 模型生成非常有用。

產品入口:https://top.aibase.com/tool/l4gm