近日,騰訊正式發佈了HunyuanWorld-Voyager,這是一種創新的視頻擴散框架,旨在通過單張輸入圖像生成具備世界一致性的3D 點雲,支持用戶按自定義的相機路徑進行沉浸式探索。

image.png

官方表示,這全球首個具備原生3D 重建功能的超遠距離世界模型,重新定義 AI 驅動的 VR、遊戲和仿真空間智能。此模型不僅能夠生成精確對齊的深度信息和 RGB 視頻,還能夠在不進行後處理的情況下,直接用於高質量的三維重建。

  • 直接3D 輸出:無需 COLMAP 等工具即可將點雲視頻導出爲3D 格式,實現即時3D 應用。

  • 創新的3D 內存:引入可擴展的世界緩存機制,確保任何攝像機軌跡的幾何一致性。

  • 頂級性能:在斯坦福 WorldScore 測試中排名第一,在視頻生成和3D 重建基準測試中表現出色

HunyuanWorld-Voyager的架構包含兩個關鍵組件。首先是 “世界一致的視頻擴散”,該組件提出了一種統一的架構,可以基於已有的世界觀測,同時生成準確對齊的 RGB 視頻和深度視頻序列,從而確保全局場景的一致性。其次是 “長距離世界探索”,它採用了一種高效的世界緩存機制,結合點雲剔除和自迴歸推理能力,支持迭代場景擴展,並通過上下文感知的一致性技術實現平滑的視頻採樣。

爲了訓練 HunyuanWorld-Voyager 模型,研究團隊構建了一套可擴展的數據構建引擎。這一自動化視頻重建流水線能夠對任意輸入視頻自動估計相機位姿和度量深度,因此無需依賴人工標註,從而實現大規模、多樣化訓練數據的構建。基於此流水線,HunyuanWorld-Voyager 整合了真實世界採集和虛幻引擎渲染的視頻資源,構建了一個包含超過10萬個視頻片段的大規模數據集。

在實驗評估中,HunyuanWorld-Voyager 在視頻生成質量方面表現出色。與四種開源的相機可控視頻生成方法進行了對比,結果顯示該模型在 PSNR、SSIM 和 LPIPS 等指標上均優於其他模型,證明了其卓越的視頻生成質量。同時,在場景重建方面,HunyuanWorld-Voyager 的生成視頻在幾何一致性上也顯現出更好的效果。

此外,HunyuanWorld-Voyager 在 WorldScore 靜態基準測試中獲得了最高分,證明了其在相機運動控制和空間一致性方面的優越性。這一成果不僅展示了混元世界模型的潛力,還爲未來的3D 場景生成技術開闢了新路徑。

劃重點:

🌍 HunyuanWorld-Voyager 能夠基於單張輸入圖像生成具有世界一致性的3D 點雲,支持用戶沉浸式探索。  

🎥 該模型同時生成精確對齊的深度信息和 RGB 視頻,適用於高質量三維重建。  

🏆 在多個測試中,HunyuanWorld-Voyager 在視頻生成質量和場景重建效果上均優於其他模型。