騰訊正式發佈了混元世界模型1.5(Tencent HY WorldPlay),這是國內首個開放的實時互動體驗平臺。該模型通過簡單的文字描述或圖片,就能迅速生成獨特的互動世界,用戶能夠通過鍵盤、鼠標或手柄實時控制虛擬相機,像玩遊戲一樣自由探索這些由 AI 生成的場景。

混元世界模型1.5具備三大核心能力:首先,實時交互生成能力,藉助原創的 Context Forcing 蒸餾方案和流式推理優化,模型能夠以24幀每秒的速度生成720P 的高清視頻。其次,模型具備長範圍的3D 一致性,這意味着用戶在離開某個區域後再次返回時,模型能夠準確 “記住” 該區域的三維結構,確保場景的連貫性。最後,模型提供多樣化的交互體驗,適用於不同風格的遊戲或現實場景,並支持多種視角切換和實時文本觸發事件。
此次發佈的混元世界模型1.5還首次開源了業內最全面的實時世界模型訓練體系,涵蓋數據、訓練和推理部署等各個環節。騰訊混元團隊在技術報告中詳細說明了模型的預訓練、持續訓練和自迴歸視頻模型的強化學習等技術細節。這一模型採用了 Next-Frames-Prediction 的視覺自迴歸任務,打破了實時性與幾何一致性之間的矛盾,爲世界建模帶來了新的可能性。
混元世界模型1.5不僅在技術上取得突破,還爲 AI 生成內容的未來開啓了更廣闊的想象空間。未來的 AI 將不僅僅限於生成文本、圖像或視頻,而是能夠創造出可實時探索和互動的完整虛擬世界。這種新模式在遊戲開發、影視製作和虛擬現實等領域都有廣泛應用。
在線體驗網站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
Github鏈接:https://github.com/Tencent-Hunyuan/HY-WorldPlay
Hugging Face鏈接:https://huggingface.co/tencent/HY-WorldPlay
項目主頁:https://3d-models.hunyuan.tencent.com/world/
劃重點:
🌍 騰訊混元世界模型1.5可通過文字或圖片快速生成互動虛擬世界,支持實時探索。
🎮 模型具備實時交互、長範圍的3D 一致性及多樣化的交互體驗。
🔧 首次開源的訓練體系爲 AI 生成內容的未來提供了全新可能。
