視頻世界模型正迎來從單人視角向多人協作的底層變革。傳統的視頻世界模型大多建立在單智能體假設之上,難以應付多個玩家在同一虛擬世界中同時操作、互相觀察的複雜場景。爲了打破這一架構瓶頸,英偉達聯合清華大學、多倫多大學及 Vector Institute 正式發佈了名爲 Gamma-World(γ-World)的全新多智能體世界模型方案。

多智能體世界建模的核心難點在於同時維護時間、跨視角以及交互的三重一致性。以往的研究如 Solaris 雖然在雙人協同上取得了進展,但暴露出身份編碼破壞置換對稱性、全連接注意力機制導致計算量隨人數平方級暴漲這兩大核心缺陷,無法真正擴展到更多主體。

image.png

針對這些結構性缺失,Gamma-World 從底層組件入手進行了重新設計。首先,團隊創新性地提出了“正單純形旋轉智能體編碼(Simplex Rotary Agent Encoding)”。通過將所有玩家放置在幾何空間的正單純形頂點上,實現了所有玩家天然等距且地位平等。這種設計不含任何可學習參數,隨機分配座標,使得模型在無需更改架構的情況下,就能實現“雙人數據訓練、四人場景直接跑通”的跨越式泛化。

其次,爲了解決算力吞吐瓶頸,Gamma-World 引入了“稀疏樞紐注意力機制(Sparse Hub Attention)”。該設計徹底摒棄了傳統的兩兩直接通信模式,改用一組可學習的樞紐 Token 作爲共享世界狀態的壓縮中轉站,將計算成本成功降至線性複雜度。在獨立的緩存技術加持下,系統成功實現了每秒24幀(24FPS)的實時動作響應推演。

在訓練層面,項目採用了三階段師生蒸餾法,利用雙向教師模型引導因果學生模型,成功將多步採樣壓縮爲4步採樣,不僅保障了動作的可控性,還有效緩解了自迴歸推演中的誤差累積。

實驗數據顯示,在多人 Minecraft 虛擬環境的記憶、建造等五類核心場景測試中,Gamma-World 相比現有最強模型取得了全面領先,評估視頻質量的 FVD 指標平均降幅超過40%。此外,該框架已成功遷移至真實雙臂機器人的協同任務中,充分驗證了其跨場景的通用性。這不僅標誌着多智能體仿真能力的提升,未來更有望爲多臂醫療協同、工廠多機器人調度以及自動駕駛等物理 AI 領域提供全新的大規模模擬生成基礎設施。