世界模型邁入精細調優時代：騰訊開源強化學習後訓練框架 WorldCompass

騰訊混元3D 團隊昨日宣佈，正式開源業界首個面向世界模型的強化學習（RL）後訓練框架——WorldCompass。作爲混元世界模型1.5的官方強化學習擴展模塊，該框架旨在顯著提升世界模型在交互過程中的準確性與用戶體驗。

當前主流世界模型主要依賴大規模預訓練，但在面對用戶複雜的組合動作指令時，往往會出現“理解偏差”或執行不精準的問題。WorldCompass 的出現，爲解決這一痛點提供了全新的“指南針”。

通過引入強化學習機制，該框架能對預訓練模型進行深度調優，使其能更準確地解析並執行復雜的動作指令，告別“聽不懂”指令的尷尬。評測數據顯示，在應用 WorldCompass 後，開源 SOTA 模型 WorldPlay 在最困難的複合動作場景下，交互準確率（Accaction）從約20% 飆升至55% 以上，提升幅度超過35%。

除了動作控制的增強，該框架還顯著改善了視覺保真度評分（HPSv3），確保模型在長距離、長時間序的虛擬世界漫遊中保持視覺表現的一致性。騰訊混元團隊表示，WorldCompass 的發佈標誌着世界模型正式從單純的“預訓練時代”跨入“強化學習精細化調優時代”。

目前，WorldCompass 的相關技術已在混元 WorldPlay 模型上得到驗證，騰訊已將相關代碼及技術報告全文開源，旨在爲全球開發者構建更智能、可控的“生成式世界模擬器”提供技術路徑。

劃重點

🎯 精準控場:攻克了世界模型在複雜動作指令下執行不精準的行業難題，準確率實現倍數級增長。
🤖 RL 深度賦能:證明了強化學習在長時序、交互式世界模型中具備巨大的調優潛力。
🌐 全棧開源:從代碼到模型細節全面開放，助力開發者打造更具沉浸感的虛擬交互環境。
🚀 代際跨越:推動世界模型技術重心從數據堆疊轉向對交互邏輯的精細雕琢。

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

7月2日，開源強化學習基礎設施項目AReaL發佈2.0版，旨在打通基礎模型訓練與智能體應用間的鏈路，爲Agent場景提供強化學習訓練支撐。2.0版面向真實業務，提供持續學習基礎設施，可記錄、整理Agent在任務中的交互過程並接入後續訓練流程，讓智能體在使用中持續進化。

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

英偉達開源Polar強化學習訓練框架，核心創新在於使Codex、Claude Code等主流代碼智能體無需修改原生代碼即可接入GRPO訓練。該框架解決代碼智能體從單步任務向複雜長流程任務（如倉庫級修改、OS交互）演進時的行業痛點，打破了智能體強化學習的“圍牆”。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

世界模型邁入精細調優時代：騰訊開源強化學習後訓練框架 WorldCompass

劃重點

相關推薦

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

前 DeepMind 團隊量化 AI 公司 EquiLibre 完成 A 輪融資，估值達5億美元

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”

​世界模型邁入精細調優時代：騰訊開源強化學習後訓練框架 WorldCompass

劃重點

相關推薦

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

前 DeepMind 團隊量化 AI 公司 EquiLibre 完成 A 輪融資，估值達5億美元

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”

世界模型邁入精細調優時代：騰訊開源強化學習後訓練框架 WorldCompass