世界モデルが微調整の時代に入りました：テンセントが開放した強化学習後のトレーニングフレームワーク WorldCompass

テンセント・ホーンクイエン3Dチームは昨日、世界モデル向けの強化学習（RL）後のトレーニングフレームワーク「WorldCompass」を正式にオープンソース化したと発表しました。これは、ホーンクイエン世界モデル1.5の公式な強化学習拡張モジュールであり、世界モデルがインタラクティブなプロセスにおいて正確性とユーザー体験を大幅に向上させることを目的としています。

現在の主流の世界モデルは主に大規模な事前学習に依存していますが、ユーザーが複雑な組み合わせアクション指令を入力した場合、「理解の誤差」や実行の不正確さといった問題が発生しやすいです。WorldCompassの登場により、こうした課題に対して新たな「ナビゲーター」として解決策が提供されています。

強化学習メカニズムを取り入れることで、このフレームワークは事前学習されたモデルを深くチューニングし、複雑なアクション指令をより正確に解析および実行する能力を向上させます。これにより、「命令が理解できない」という状況を回避することができます。評価データによると、WorldCompassを導入した後、オープンソースのSOTAモデルであるWorldPlayでは、最も困難な複合アクションシナリオにおいて、インタラクティブな正確率（Accaction）が約20％から55％以上に急騰し、増加幅は35％を超えました。

アクション制御の強化だけでなく、このフレームワークは視覚の忠実度スコア（HPSv3）も著しく改善し、長距離かつ長時間の時系列における仮想世界での視覚表現の一貫性を確保します。テンセント・ホーンクイエンチームは、WorldCompassの公開が世界モデルが単なる「事前学習時代」から「強化学習による細かい調整時代」へと進化したことを示していると述べています。

現在、WorldCompassに関連する技術はホーンクイエンのWorldPlayモデルで検証されており、テンセントは関連コードと技術報告書の全文をオープンソース化しており、世界中の開発者に対してよりスマートで制御可能な「生成型世界シミュレータ」の構築を支援することを目的としています。

ポイント解説

🎯 正確なコントロール: 世界モデルが複雑なアクション指示で正確に実行できなかった業界の課題を克服し、正確率を倍増させました。
🤖 強化学習の深い恩恵: 長い時間序列と対話型世界モデルにおいて、強化学習が大きな調整の可能性を有することを証明しました。
🌐 全スタックのオープンソース: コードからモデルの詳細まで完全に開放し、開発者がより没入感のある仮想インタラクティブ環境を作成するのを支援します。
🚀 世代の飛躍: 世界モデル技術の中心をデータの積み重ねから、インタラクションロジックの精密な彫刻へと移しました。

世界モデルが微調整の時代に入りました：テンセントが開放した強化学習後のトレーニングフレームワーク WorldCompass

ポイント解説

関連推奨

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる

アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

ミリオン級のエージェントの試練！MiniMaxと Tencent Cloudが提携：RLサンドボックスが全量を安定して運用

OpenClawは使いながら学べるようになりました：インテリジェントエージェントの強化学習トレーニングフレームワークAReaL v1.0が安定バージョンとしてリリースされました

前ディープマインド最高技術責任者が出資して起業し、スーパーインテリジェンスの新時代を狙う！

世界モデルが微調整の時代に入りました：テンセントが開放した強化学習後のトレーニングフレームワーク WorldCompass

ポイント解説

関連推奨

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表 大規模モデルがより深く考えるようになる

アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

ミリオン級のエージェントの試練！MiniMaxと Tencent Cloudが提携：RLサンドボックスが全量を安定して運用

OpenClawは使いながら学べるようになりました：インテリジェントエージェントの強化学習トレーニングフレームワークAReaL v1.0が安定バージョンとしてリリースされました

前ディープマインド最高技術責任者が出資して起業し、スーパーインテリジェンスの新時代を狙う！

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる