崑崙萬維在北京舉行的 SkyWork AI 技術發佈週上,推出了 Matrix-3D,這一全新的3D 世界生成大模型,標誌着3D 生成技術的重大進步。
打破3D 生成瓶頸
Matrix-3D 的推出旨在解決現有3D 場景生成技術在視角範圍、幾何一致性和視覺質量上的侷限。傳統方法通常依賴多視角輸入,難以從單一圖像中生成完整且可探索的3D 世界。而 Matrix-3D 則整合了全景視頻生成和三維重建,能夠從單張圖像開始,生成高質量且具有一致軌跡的全景視頻,並重建出可漫遊的3D 空間。
核心技術優勢
Matrix-3D 包含幾個核心模塊,確保其在生成能力上的優勢:
軌跡引導的全景視頻生成 :通過使用場景 Mesh 渲染圖作爲條件輸入,訓練視頻擴散模型,生成符合相機軌跡的全景視頻,從而提高視頻在空間結構上的一致性,並減少遮擋錯誤和圖像僞影。
雙路徑全景3D 重建模塊 :該模塊支持兩種優化路徑。一是通過超分辨率和3D 結構優化,獲取高質量的3D 模型;二是基於 Transformer 的前饋網絡,快速預測3D 幾何屬性,實現高效重建。
Matrix-Pano 數據集 :該數據集規模龐大,包含116K 條帶有相機軌跡、深度圖和文本註釋的靜態全景視頻序列,保障了生成模型的訓練基礎。
自由探索與精準控制
Matrix-3D 支持用戶通過文本或圖像輸入,生成可自由探索的3D 場景。其主要特點包括:
- 視角一致性 :生成的3D 場景支持360度自由環視,確保內容始終保持一致。
- 幾何與色彩一致性 :生成的3D 場景在幾何關係和遮擋關係上保持準確,不同區域顏色協調統一。
- 精準控制與範圍擴展 :用戶可以根據輸入軌跡生成不同的3D 場景,並且可以在生成的場景基礎上進行無限擴展。
廣泛的應用前景
Matrix-3D 作爲3D 世界生成的重要里程碑,預計將在多個領域發揮重要作用,包括:
- 遊戲與影視製作 :快速生成高質量的3D 場景,降低製作成本,提高沉浸感。
- 具身智能 :構建可控的模擬環境,用於機器人訓練和自動駕駛測試。
崑崙萬維的 Matrix-3D 項目主頁及相關技術報告現已上線,進一步推動3D 生成技術的發展。
崑崙萬維「Matrix-3D」:
GitHub:
https://github.com/SkyworkAI/Matrix-3D
HuggingFace:
https://huggingface.co/Skywork/Matrix-3D
技術報告:
https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf
項目主頁:
https://matrix-3d.github.io/