今日,騰訊正式發佈並開源了混元世界模型1.1(WorldMirror),這一全新版本在多視圖和視頻輸入支持、單卡部署以及生成速度等方面進行了重大升級,爲3D 重建技術的普及和應用打開了新的大門。

混元世界模型1.1以其強大的功能,致力於將專業的3D 重建技術變爲普通用戶可輕鬆使用的工具。該模型能夠在僅僅數秒內,從視頻或圖片中生成專業級的3D 場景,大幅提升了3D 重建的效率和便捷性。其前身混元世界模型1.0於今年7月發佈,成爲業界首個兼容傳統 CG 管線的開源可漫遊世界生成模型,而新版本則在此基礎上實現了多模態先驗注入和多任務統一輸出的端到端3D 重建。

圖片

該模型的三個主要特性包括靈活處理不同輸入、通用3D 視覺預測和單卡部署秒級推理。混元世界模型1.1採用了多模態先驗引導機制,支持相機位姿、相機內參和深度圖等多種信息的注入,確保生成的3D 場景在幾何上更加準確。同時,該模型實現了點雲、深度圖、相機參數、表面法線和新視角合成等多種3D 幾何預測,展示出顯著的性能優勢。

與傳統的3D 重建方法相比,混元世界模型1.1利用純前饋架構,能夠在單次正向傳播中直接輸出所有3D 屬性,顯著降低了處理時間。對於典型的8-32視圖輸入,模型僅需1秒鐘即可完成推理,滿足了實時應用的需求。

圖片

在技術架構方面,混元世界模型1.1採用多模態先驗提示和通用幾何預測架構,結合課程學習策略,使得模型在複雜的真實環境中保持高效、準確的解析能力。通過動態注入機制,模型能夠靈活應對各種先驗信息,提升了3D 結構的一致性和重建質量。

目前,混元世界模型1.1已經在 GitHub 上開源,開發者可以輕鬆克隆倉庫並進行本地部署。同時,普通用戶也可以通過 HuggingFace Space 在線體驗,上傳多視圖圖像或視頻,實時預覽生成的3D 場景。該技術的發佈標誌着3D 重建領域的一次重要進步,未來將進一步推動虛擬現實、遊戲開發等多個行業的發展。

  • 項目主頁:https://3d-models.hunyuan.tencent.com/world/

  • Github 項目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror

  • Hugging Face 模型地址:https://huggingface.co/tencent/HunyuanWorld-Mirror