昆仑万维开源 Matrix-3D 大模型：用单张图像可生成高质量全景视频

昆仑万维在北京举行的 SkyWork AI 技术发布周上，推出了 Matrix-3D，这一全新的3D 世界生成大模型，标志着3D 生成技术的重大进步。

打破3D 生成瓶颈

Matrix-3D 的推出旨在解决现有3D 场景生成技术在视角范围、几何一致性和视觉质量上的局限。传统方法通常依赖多视角输入，难以从单一图像中生成完整且可探索的3D 世界。而 Matrix-3D 则整合了全景视频生成和三维重建，能够从单张图像开始，生成高质量且具有一致轨迹的全景视频，并重建出可漫游的3D 空间。

核心技术优势

Matrix-3D 包含几个核心模块，确保其在生成能力上的优势:

轨迹引导的全景视频生成 :通过使用场景 Mesh 渲染图作为条件输入，训练视频扩散模型，生成符合相机轨迹的全景视频，从而提高视频在空间结构上的一致性，并减少遮挡错误和图像伪影。
双路径全景3D 重建模块 :该模块支持两种优化路径。一是通过超分辨率和3D 结构优化，获取高质量的3D 模型;二是基于 Transformer 的前馈网络，快速预测3D 几何属性，实现高效重建。
Matrix-Pano 数据集 :该数据集规模庞大，包含116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列，保障了生成模型的训练基础。

自由探索与精准控制

Matrix-3D 支持用户通过文本或图像输入，生成可自由探索的3D 场景。其主要特点包括:

视角一致性 :生成的3D 场景支持360度自由环视，确保内容始终保持一致。
几何与色彩一致性 :生成的3D 场景在几何关系和遮挡关系上保持准确，不同区域颜色协调统一。
精准控制与范围扩展 :用户可以根据输入轨迹生成不同的3D 场景，并且可以在生成的场景基础上进行无限扩展。

广泛的应用前景

Matrix-3D 作为3D 世界生成的重要里程碑，预计将在多个领域发挥重要作用，包括:

游戏与影视制作 :快速生成高质量的3D 场景，降低制作成本，提高沉浸感。
具身智能 :构建可控的模拟环境，用于机器人训练和自动驾驶测试。

昆仑万维的 Matrix-3D 项目主页及相关技术报告现已上线，进一步推动3D 生成技术的发展。

昆仑万维「Matrix-3D」:

GitHub:

https://github.com/SkyworkAI/Matrix-3D

HuggingFace:

https://huggingface.co/Skywork/Matrix-3D

技术报告:

https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf

项目主页:

https://matrix-3d.github.io/

昆仑万维开源 Matrix-3D 大模型：用单张图像可生成高质量全景视频

打破3D 生成瓶颈

核心技术优势

自由探索与精准控制

广泛的应用前景

相关推荐

国产端侧大模型第一次登上全球旗舰：面壁 MiniCPM 装进三星 Galaxy Z Fold8 系列

NTT DATA部署Codex： 5 名工程师 3 天的故障分析缩短至 30 分钟， 9000 名员工已用上AI

微软经典版Outlook年底前整合Copilot，AI起草邮件功能将覆盖Win10/Win11

Monday.com 裁员 630 人，聚焦人工智能战略

OpenAI 的 AI 代理失控事件：人工智能安全的警钟