随着 AI 技术的迅猛发展,视频生成的质量正以惊人的速度提升,从最初模糊不清的片段发展到如今极具真实感的生成视频。然而,在这一进程中,缺乏对生成视频的控制和编辑能力,仍然是一个亟待解决的关键问题。直到 NVIDIA 及其合作伙伴在最新研究中推出的 DiffusionRenderer,才为这一难题带来了新的解决方案。

DiffusionRenderer 是一项开创性的研究成果,它不仅可以生成视频,还能对视频中的3D 场景进行理解和操作。这一模型将生成与编辑有机结合,极大地解锁了 AI 驱动内容创作的潜力。以往的技术,如物理基础渲染(PBR),在生成高真实感视频方面表现出色,但对于场景的编辑却束手无策。DiffusionRenderer 通过独特的方式处理3D 场景,突破了这一局限。

image.png

该模型使用了两个神经渲染器。首先是神经逆渲染器,它会分析输入的视频,从中提取场景的几何和材质属性,生成所需的数据缓冲区;其次是神经前向渲染器,它将这些数据与所需的光照结合,生成高质量的逼真视频。两者的协同工作,使得 DiffusionRenderer 在处理现实世界数据时表现出了强大的适应能力。

研究团队为 DiffusionRenderer 设计了独特的数据策略,构建了一个包含15万个视频的庞大合成数据集,作为模型学习的基础。同时,他们还利用一个包含10,510个真实世界视频的数据集,自动生成了场景属性标签,使模型能够更好地适应真实视频的特性。

image.png

DiffusionRenderer 的表现令人瞩目,在多项任务的对比测试中,均展现出了领先于其他方法的优势。它不仅能够在复杂场景中生成更逼真的光影效果,还能在反向渲染时准确估计场景的材质属性。

这一技术的实际应用潜力巨大,用户可以通过 DiffusionRenderer 进行动态光照、材料编辑及无缝对象插入等操作。用户只需提供一段视频,便可轻松实现对场景的修改和再创作。这一技术的发布标志着视频渲染和编辑领域的一次重要飞跃,赋予了更多创作者和设计师更大的创作自由。

  • Demo Video https://youtu.be/jvEdWKaPqkc
  • github :  https://github.com/nv-tlabs/cosmos1-diffusion-renderer
  • 项目页: https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/

划重点:

🌟 DiffusionRenderer 通过结合生成与编辑功能,为3D 场景创作带来新的可能性。  

🎥 该模型利用神经逆渲染器和神经前向渲染器的协同作用,提升了视频渲染的真实感和适应性。  

🚀 它的实际应用包括动态光照、材料编辑和对象插入,让创作者能够更加轻松地进行视频创作。