ビデオワールドモデルは、単一の視点から複数の協働に向けた下部構造的な変革を迎えています。従来のビデオワールドモデルは多くが単一のエージェント仮定に基づいており、同じバーチャル世界で複数のプレイヤーが同時に操作し、お互いを観察する複雑なシナリオに対応するのが困難でした。この構造的なブロックを打破するために、NVIDIAは清华大学、トロント大学およびVector Instituteと共同で、Gamma-World(γ-World)という新たなマルチエージェントワールドモデルの提案を行いました。

マルチエージェントワールドモデリングの核心的な課題は、時間、視点間、そして相互作用の3つの整合性を同時に維持することです。以前の研究であるSolarisは、二人の協働において進展を遂げましたが、アイデンティティエンコードの破壊による対称性の喪失や、全結合アテンションメカニズムによって人数の二乗に比例して計算量が増加するという2つの主要な欠点を暴露しました。これらにより、多数のエージェントへの拡張は不可能でした。

image.png

これらの構造的な欠点に対して、Gamma-Worldは根本的なコンポーネントから再設計を行いました。まず、チームは「正単体回転エージェント符号化(Simplex Rotary Agent Encoding)」を画期的に提案しました。すべてのプレイヤーを幾何空間の正単体の頂点に配置することで、すべてのプレイヤーが自然に等距離であり、地位が平等になることを実現しました。この設計には学習可能なパラメータが一切なく、座標はランダムに割り当てられ、モデルはアーキテクチャを変更することなく、「二人データでの訓練、四人シーンでの直接実行」という飛躍的な汎化を実現できます。

次に、計算能力のスループットのボトルネックを解決するために、Gamma-Worldは「スパースハブアテンションメカニズム(Sparse Hub Attention)」を導入しました。この設計は従来の双方向直接通信モードを完全に放棄し、学習可能なハブトークン群を共有された世界状態の圧縮中継所として使用し、計算コストを線形複雑度に成功させました。独立したキャッシュ技術の支援のもと、システムは秒間24フレーム(24FPS)のリアルタイム動作応答推論を実現しました。

トレーニングの面では、プロジェクトは三段階の教師生徒蒸留法を使用し、双方向教師モデルが因果的生徒モデルをガイドし、多ステップサンプリングを4ステップサンプリングに圧縮しました。これにより、アクションの制御可能性を確保し、自己回帰推論における誤差蓄積を効果的に緩和できました。

実験データによると、多人数Minecraftバーチャル環境における記憶、建設などの5つの主要なシナリオテストにおいて、Gamma-Worldは現在の最強モデルに比べて全面的に優れており、評価ビデオ品質のFVD指標は平均で40%以上低下しています。さらに、このフレームワークは実際に二本のアームロボットの協働タスクに移行され、その場面横断的な汎用性を十分に証明しました。これは、マルチエージェントシミュレーション能力の向上を示すだけでなく、今後は多腕医療協働、工場の多ロボットスケジューリング、自動運転など物理AI分野において新たな大規模なシミュレーション生成インフラストラクチャを提供することが期待されています。