腾讯混元3D 团队昨日宣布,正式开源业界首个面向世界模型的强化学习(RL)后训练框架——WorldCompass。作为混元世界模型1.5的官方强化学习扩展模块,该框架旨在显著提升世界模型在交互过程中的准确性与用户体验。
当前主流世界模型主要依赖大规模预训练,但在面对用户复杂的组合动作指令时,往往会出现“理解偏差”或执行不精准的问题。WorldCompass 的出现,为解决这一痛点提供了全新的“指南针”。

通过引入强化学习机制,该框架能对预训练模型进行深度调优,使其能更准确地解析并执行复杂的动作指令,告别“听不懂”指令的尴尬。评测数据显示,在应用 WorldCompass 后,开源 SOTA 模型 WorldPlay 在最困难的复合动作场景下,交互准确率(Accaction)从约20% 飙升至55% 以上,提升幅度超过35%。
除了动作控制的增强,该框架还显著改善了视觉保真度评分(HPSv3),确保模型在长距离、长时间序的虚拟世界漫游中保持视觉表现的一致性。腾讯混元团队表示,WorldCompass 的发布标志着世界模型正式从单纯的“预训练时代”跨入“强化学习精细化调优时代”。
目前,WorldCompass 的相关技术已在混元 WorldPlay 模型上得到验证,腾讯已将相关代码及技术报告全文开源,旨在为全球开发者构建更智能、可控的“生成式世界模拟器”提供技术路径。
划重点
🎯 精准控场:攻克了世界模型在复杂动作指令下执行不精准的行业难题,准确率实现倍数级增长。
🤖 RL 深度赋能:证明了强化学习在长时序、交互式世界模型中具备巨大的调优潜力。
🌐 全栈开源:从代码到模型细节全面开放,助力开发者打造更具沉浸感的虚拟交互环境。
🚀 代际跨越:推动世界模型技术重心从数据堆叠转向对交互逻辑的精细雕琢。
