昆仑万维在北京举行的 SkyWork AI 技术发布周上,推出了 Matrix-3D,这一全新的3D 世界生成大模型,标志着3D 生成技术的重大进步。

打破3D 生成瓶颈

Matrix-3D 的推出旨在解决现有3D 场景生成技术在视角范围、几何一致性和视觉质量上的局限。传统方法通常依赖多视角输入,难以从单一图像中生成完整且可探索的3D 世界。而 Matrix-3D 则整合了全景视频生成和三维重建,能够从单张图像开始,生成高质量且具有一致轨迹的全景视频,并重建出可漫游的3D 空间。

image.png

核心技术优势

Matrix-3D 包含几个核心模块,确保其在生成能力上的优势:

  1. 轨迹引导的全景视频生成 :通过使用场景 Mesh 渲染图作为条件输入,训练视频扩散模型,生成符合相机轨迹的全景视频,从而提高视频在空间结构上的一致性,并减少遮挡错误和图像伪影。

  2. 双路径全景3D 重建模块 :该模块支持两种优化路径。一是通过超分辨率和3D 结构优化,获取高质量的3D 模型;二是基于 Transformer 的前馈网络,快速预测3D 几何属性,实现高效重建。

  3. Matrix-Pano 数据集 :该数据集规模庞大,包含116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列,保障了生成模型的训练基础。

自由探索与精准控制

Matrix-3D 支持用户通过文本或图像输入,生成可自由探索的3D 场景。其主要特点包括:

image.png

  • 视角一致性 :生成的3D 场景支持360度自由环视,确保内容始终保持一致。
  • 几何与色彩一致性 :生成的3D 场景在几何关系和遮挡关系上保持准确,不同区域颜色协调统一。
  • 精准控制与范围扩展 :用户可以根据输入轨迹生成不同的3D 场景,并且可以在生成的场景基础上进行无限扩展。

广泛的应用前景

Matrix-3D 作为3D 世界生成的重要里程碑,预计将在多个领域发挥重要作用,包括:

  • 游戏与影视制作 :快速生成高质量的3D 场景,降低制作成本,提高沉浸感。
  • 具身智能 :构建可控的模拟环境,用于机器人训练和自动驾驶测试。

昆仑万维的 Matrix-3D 项目主页及相关技术报告现已上线,进一步推动3D 生成技术的发展。

昆仑万维「Matrix-3D」:

GitHub:

https://github.com/SkyworkAI/Matrix-3D

HuggingFace:

https://huggingface.co/Skywork/Matrix-3D

技术报告:

https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf

项目主页:

https://matrix-3d.github.io/