崑崙萬維開源 Matrix-3D 大模型：用單張圖像可生成高質量全景視頻

崑崙萬維在北京舉行的 SkyWork AI 技術發佈週上，推出了 Matrix-3D，這一全新的3D 世界生成大模型，標誌着3D 生成技術的重大進步。

打破3D 生成瓶頸

Matrix-3D 的推出旨在解決現有3D 場景生成技術在視角範圍、幾何一致性和視覺質量上的侷限。傳統方法通常依賴多視角輸入，難以從單一圖像中生成完整且可探索的3D 世界。而 Matrix-3D 則整合了全景視頻生成和三維重建，能夠從單張圖像開始，生成高質量且具有一致軌跡的全景視頻，並重建出可漫遊的3D 空間。

核心技術優勢

Matrix-3D 包含幾個核心模塊，確保其在生成能力上的優勢:

軌跡引導的全景視頻生成 :通過使用場景 Mesh 渲染圖作爲條件輸入，訓練視頻擴散模型，生成符合相機軌跡的全景視頻，從而提高視頻在空間結構上的一致性，並減少遮擋錯誤和圖像僞影。
雙路徑全景3D 重建模塊 :該模塊支持兩種優化路徑。一是通過超分辨率和3D 結構優化，獲取高質量的3D 模型;二是基於 Transformer 的前饋網絡，快速預測3D 幾何屬性，實現高效重建。
Matrix-Pano 數據集 :該數據集規模龐大，包含116K 條帶有相機軌跡、深度圖和文本註釋的靜態全景視頻序列，保障了生成模型的訓練基礎。

自由探索與精準控制

Matrix-3D 支持用戶通過文本或圖像輸入，生成可自由探索的3D 場景。其主要特點包括:

視角一致性 :生成的3D 場景支持360度自由環視，確保內容始終保持一致。
幾何與色彩一致性 :生成的3D 場景在幾何關係和遮擋關係上保持準確，不同區域顏色協調統一。
精準控制與範圍擴展 :用戶可以根據輸入軌跡生成不同的3D 場景，並且可以在生成的場景基礎上進行無限擴展。

廣泛的應用前景

Matrix-3D 作爲3D 世界生成的重要里程碑，預計將在多個領域發揮重要作用，包括:

遊戲與影視製作 :快速生成高質量的3D 場景，降低製作成本，提高沉浸感。
具身智能 :構建可控的模擬環境，用於機器人訓練和自動駕駛測試。

崑崙萬維的 Matrix-3D 項目主頁及相關技術報告現已上線，進一步推動3D 生成技術的發展。

崑崙萬維「Matrix-3D」:

GitHub:

https://github.com/SkyworkAI/Matrix-3D

HuggingFace:

https://huggingface.co/Skywork/Matrix-3D

技術報告:

https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf

項目主頁:

https://matrix-3d.github.io/

崑崙萬維開源 Matrix-3D 大模型：用單張圖像可生成高質量全景視頻

打破3D 生成瓶頸

核心技術優勢

自由探索與精準控制

廣泛的應用前景

相關推薦

文遠知行推出物理 AI 大模型 WITT

百度沈抖：每位員工每月發 1000 元額度自由體驗主流大模型，強制推行AI辦公難見效

Soul亮相WAIC2026，發佈SoulX多模態交互大模型與AI硬件B Soul

秒噠3. 5 全球首發iOS無代碼打包與多端共享後端，百度要把應用開發門檻再砍一刀

數字永生？面壁智能開源企業數字員工平臺StaffDeck