L4GM：可在幾秒鐘內將視頻目標對象生成4D高斯模型

近日，研究團隊提出了一種名爲 L4GM 的大規模4D 高斯重建模型，該模型能夠從單視角視頻輸入中生成動畫對象，實現了令人印象深刻的效果。

該模型的關鍵在於創新性的數據集以及簡化的設計，使得在短短一秒內完成單向傳遞成爲可能，同時保證了輸出動畫物體的高質量。

視頻到4D合成

L4GM 可在幾秒鐘內從視頻中生成4D 對象，如下視頻示例，就可以看到原視頻中目標對象，以及對應生成4D高斯重建模型。

重建長、高 FPS、靈活度視頻

並且重建10秒長的30fps 視頻。如下視頻示例，

4D 插值

該團隊還訓練一個4D 插值模型，將幀速率提高3倍。如下視頻示例，

左圖:插值前。右:插值後

構建視角視頻數據集

研究團隊構建了一個包含多視角視頻的數據集，其中包含來自 Objaverse 的精心製作、渲染的動畫物體。這個數據集展示了4.4萬個多樣化的物體，涵蓋了48個視角下的110，000個動畫，總共產生了1.2億個視頻，共計3億幀。基於此數據集，L4GM 直接在已經預訓練的3D 大規模重建模型 LGM 的基礎上構建，從多視角圖像輸入中輸出3D 高斯橢球體。

L4GM 通過在低 fps 採樣的視頻幀上生成每幀的3D 高斯飛濺表示，然後將表示上採樣到更高的 fps 以實現時間上的平滑性。

爲了幫助模型學習時間上的一致性，研究團隊在基礎 LGM 上添加了時間自注意力層，並利用每個時間步的多視角渲染損失來訓練模型。通過訓練一個插值模型，該表示被上採樣到更高的幀率，從而產生中間的3D 高斯表示。

研究團隊展示了 L4GM 在合成數據上訓練後在野外視頻上的良好泛化能力，產生了高質量的動畫3D 物體。該模型接受單視角視頻和單時間步多視角圖像作爲輸入，並輸出一組4D 高斯概率分佈。

技術框架

該模型將單視圖視頻和單時間步長多視圖圖像作爲輸入，並輸出一組4D 高斯。它採用U-Net架構，使用跨視圖自注意力實現視圖一致性，使用時間跨時空自注意力實現時間一致性。

L4GM 允許自迴歸重建，使用最後一個高斯的多視圖渲染作爲下一個重建的輸入。兩個連續的重建之間存在一幀重疊。此外，研究團隊還訓練了一個4D 插值模型。插值模型接收從重建結果渲染的插值多視圖視頻，並輸出插值高斯。

L4GM可應用場景包括:

視頻內容生成:L4GM 可以從單視圖視頻輸入中生成動畫對象的4D 模型，這在視頻特效製作、遊戲開發等領域中具有廣泛的應用。例如，可以用於生成特效動畫、虛擬場景構建等。

視頻重建與修復:L4GM 能夠重建長時間、高幀率的視頻，可以用於視頻修復和恢復，提高視頻質量和清晰度。這對於電影修復、視頻壓縮和視頻處理中可能非常有用。

視頻插值:通過訓練的4D 插值模型，L4GM 可以增加視頻的幀率，使視頻更加流暢。這在視頻編輯、慢動作 / 快動作效果製作等方面有着潛在的應用。

3D 資產生成:L4GM 可以生成高質量的動畫3D 資產，這對於虛擬現實（VR）、增強現實(AR)應用和遊戲開發中的3D 模型生成非常有用。

產品入口：https://top.aibase.com/tool/l4gm

L4GM：可在幾秒鐘內將視頻目標對象生成4D高斯模型

相關推薦

千問App上線Wan2.7視頻模型：幾句話搞定視頻編輯和動作續寫

美團發佈原生多模態 LongCat-Next：視覺語音實現底層統一

亞馬遜、英偉達集體入局！印度 AI 新星 Sarvam 開啓 3.5 億美元鉅額融資

兒童安全聯盟背後暗藏玄機：OpenAI 悄然出資引發質疑

北京市新增15款已完成登記的生成式人工智能服務