世界模型迈入精细调优时代：腾讯开源强化学习后训练框架 WorldCompass

腾讯混元3D 团队昨日宣布，正式开源业界首个面向世界模型的强化学习（RL）后训练框架——WorldCompass。作为混元世界模型1.5的官方强化学习扩展模块，该框架旨在显著提升世界模型在交互过程中的准确性与用户体验。

当前主流世界模型主要依赖大规模预训练，但在面对用户复杂的组合动作指令时，往往会出现“理解偏差”或执行不精准的问题。WorldCompass 的出现，为解决这一痛点提供了全新的“指南针”。

通过引入强化学习机制，该框架能对预训练模型进行深度调优，使其能更准确地解析并执行复杂的动作指令，告别“听不懂”指令的尴尬。评测数据显示，在应用 WorldCompass 后，开源 SOTA 模型 WorldPlay 在最困难的复合动作场景下，交互准确率（Accaction）从约20% 飙升至55% 以上，提升幅度超过35%。

除了动作控制的增强，该框架还显著改善了视觉保真度评分（HPSv3），确保模型在长距离、长时间序的虚拟世界漫游中保持视觉表现的一致性。腾讯混元团队表示，WorldCompass 的发布标志着世界模型正式从单纯的“预训练时代”跨入“强化学习精细化调优时代”。

目前，WorldCompass 的相关技术已在混元 WorldPlay 模型上得到验证，腾讯已将相关代码及技术报告全文开源，旨在为全球开发者构建更智能、可控的“生成式世界模拟器”提供技术路径。

划重点

🎯 精准控场:攻克了世界模型在复杂动作指令下执行不精准的行业难题，准确率实现倍数级增长。
🤖 RL 深度赋能:证明了强化学习在长时序、交互式世界模型中具备巨大的调优潜力。
🌐 全栈开源:从代码到模型细节全面开放，助力开发者打造更具沉浸感的虚拟交互环境。
🚀 代际跨越:推动世界模型技术重心从数据堆叠转向对交互逻辑的精细雕琢。

让Agent越用越强:AReaL2.0开源，打造面向自演进智能体的RL基础设施

7月2日，开源强化学习基础设施项目AReaL发布2.0版，旨在打通基础模型训练与智能体应用间的链路，为Agent场景提供强化学习训练支撑。2.0版面向真实业务，提供持续学习基础设施，可记录、整理Agent在任务中的交互过程并接入后续训练流程，让智能体在使用中持续进化。

英伟达开源 Polar 框架：让 AI 编码智能体实现强化学习“零门槛”进化

英伟达开源Polar强化学习训练框架，核心创新在于使Codex、Claude Code等主流代码智能体无需修改原生代码即可接入GRPO训练。该框架解决代码智能体从单步任务向复杂长流程任务（如仓库级修改、OS交互）演进时的行业痛点，打破了智能体强化学习的“围墙”。

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

腾讯混元联合UCLA、港中文等机构，针对多模态大语言模型（MLLMs）从“被动理解”向“主动推理”进化的需求，开源了多模态搜索智能体。此前，高质量数据、自动化轨迹合成路径及训练配方的缺失，导致顶尖智能体难以复现。此次开源旨在打破僵局，推动社区发展。

世界模型迈入精细调优时代：腾讯开源强化学习后训练框架 WorldCompass

划重点

相关推荐

让Agent越用越强:AReaL2.0开源，打造面向自演进智能体的RL基础设施

前 DeepMind 团队量化 AI 公司 EquiLibre 完成 A 轮融资，估值达5亿美元

英伟达开源 Polar 框架：让 AI 编码智能体实现强化学习“零门槛”进化

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

32B 推理性能反超 o1-mini！阿里通义发布 FIPO 算法，让大模型“想得更深”

​世界模型迈入精细调优时代：腾讯开源强化学习后训练框架 WorldCompass

划重点

相关推荐

让Agent越用越强:AReaL2.0开源，打造面向自演进智能体的RL基础设施

前 DeepMind 团队量化 AI 公司 EquiLibre 完成 A 轮融资，估值达5亿美元

英伟达开源 Polar 框架：让 AI 编码智能体实现强化学习“零门槛”进化

腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

32B 推理性能反超 o1-mini！阿里通义发布 FIPO 算法，让大模型“想得更深”

世界模型迈入精细调优时代：腾讯开源强化学习后训练框架 WorldCompass