昆仑万维在北京举行的 SkyWork AI 技术发布周上,推出了 Matrix-3D,这一全新的3D 世界生成大模型,标志着3D 生成技术的重大进步。
打破3D 生成瓶颈
Matrix-3D 的推出旨在解决现有3D 场景生成技术在视角范围、几何一致性和视觉质量上的局限。传统方法通常依赖多视角输入,难以从单一图像中生成完整且可探索的3D 世界。而 Matrix-3D 则整合了全景视频生成和三维重建,能够从单张图像开始,生成高质量且具有一致轨迹的全景视频,并重建出可漫游的3D 空间。
核心技术优势
Matrix-3D 包含几个核心模块,确保其在生成能力上的优势:
轨迹引导的全景视频生成 :通过使用场景 Mesh 渲染图作为条件输入,训练视频扩散模型,生成符合相机轨迹的全景视频,从而提高视频在空间结构上的一致性,并减少遮挡错误和图像伪影。
双路径全景3D 重建模块 :该模块支持两种优化路径。一是通过超分辨率和3D 结构优化,获取高质量的3D 模型;二是基于 Transformer 的前馈网络,快速预测3D 几何属性,实现高效重建。
Matrix-Pano 数据集 :该数据集规模庞大,包含116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列,保障了生成模型的训练基础。
自由探索与精准控制
Matrix-3D 支持用户通过文本或图像输入,生成可自由探索的3D 场景。其主要特点包括:
- 视角一致性 :生成的3D 场景支持360度自由环视,确保内容始终保持一致。
- 几何与色彩一致性 :生成的3D 场景在几何关系和遮挡关系上保持准确,不同区域颜色协调统一。
- 精准控制与范围扩展 :用户可以根据输入轨迹生成不同的3D 场景,并且可以在生成的场景基础上进行无限扩展。
广泛的应用前景
Matrix-3D 作为3D 世界生成的重要里程碑,预计将在多个领域发挥重要作用,包括:
- 游戏与影视制作 :快速生成高质量的3D 场景,降低制作成本,提高沉浸感。
- 具身智能 :构建可控的模拟环境,用于机器人训练和自动驾驶测试。
昆仑万维的 Matrix-3D 项目主页及相关技术报告现已上线,进一步推动3D 生成技术的发展。
昆仑万维「Matrix-3D」:
GitHub:
https://github.com/SkyworkAI/Matrix-3D
HuggingFace:
https://huggingface.co/Skywork/Matrix-3D
技术报告:
https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf
项目主页:
https://matrix-3d.github.io/