騰訊混元3D 團隊昨日宣佈,正式開源業界首個面向世界模型的強化學習(RL)後訓練框架——WorldCompass。作爲混元世界模型1.5的官方強化學習擴展模塊,該框架旨在顯著提升世界模型在交互過程中的準確性與用戶體驗。
當前主流世界模型主要依賴大規模預訓練,但在面對用戶複雜的組合動作指令時,往往會出現“理解偏差”或執行不精準的問題。WorldCompass 的出現,爲解決這一痛點提供了全新的“指南針”。

通過引入強化學習機制,該框架能對預訓練模型進行深度調優,使其能更準確地解析並執行復雜的動作指令,告別“聽不懂”指令的尷尬。評測數據顯示,在應用 WorldCompass 後,開源 SOTA 模型 WorldPlay 在最困難的複合動作場景下,交互準確率(Accaction)從約20% 飆升至55% 以上,提升幅度超過35%。
除了動作控制的增強,該框架還顯著改善了視覺保真度評分(HPSv3),確保模型在長距離、長時間序的虛擬世界漫遊中保持視覺表現的一致性。騰訊混元團隊表示,WorldCompass 的發佈標誌着世界模型正式從單純的“預訓練時代”跨入“強化學習精細化調優時代”。
目前,WorldCompass 的相關技術已在混元 WorldPlay 模型上得到驗證,騰訊已將相關代碼及技術報告全文開源,旨在爲全球開發者構建更智能、可控的“生成式世界模擬器”提供技術路徑。
劃重點
🎯 精準控場:攻克了世界模型在複雜動作指令下執行不精準的行業難題,準確率實現倍數級增長。
🤖 RL 深度賦能:證明了強化學習在長時序、交互式世界模型中具備巨大的調優潛力。
🌐 全棧開源:從代碼到模型細節全面開放,助力開發者打造更具沉浸感的虛擬交互環境。
🚀 代際跨越:推動世界模型技術重心從數據堆疊轉向對交互邏輯的精細雕琢。
