英偉達聯合清華推出 Gamma-World，打破多智能體虛擬仿真天花板

視頻世界模型正迎來從單人視角向多人協作的底層變革。傳統的視頻世界模型大多建立在單智能體假設之上，難以應付多個玩家在同一虛擬世界中同時操作、互相觀察的複雜場景。爲了打破這一架構瓶頸，英偉達聯合清華大學、多倫多大學及 Vector Institute 正式發佈了名爲 Gamma-World（γ-World）的全新多智能體世界模型方案。

多智能體世界建模的核心難點在於同時維護時間、跨視角以及交互的三重一致性。以往的研究如 Solaris 雖然在雙人協同上取得了進展，但暴露出身份編碼破壞置換對稱性、全連接注意力機制導致計算量隨人數平方級暴漲這兩大核心缺陷，無法真正擴展到更多主體。

針對這些結構性缺失，Gamma-World 從底層組件入手進行了重新設計。首先，團隊創新性地提出了“正單純形旋轉智能體編碼（Simplex Rotary Agent Encoding）”。通過將所有玩家放置在幾何空間的正單純形頂點上，實現了所有玩家天然等距且地位平等。這種設計不含任何可學習參數，隨機分配座標，使得模型在無需更改架構的情況下，就能實現“雙人數據訓練、四人場景直接跑通”的跨越式泛化。

其次，爲了解決算力吞吐瓶頸，Gamma-World 引入了“稀疏樞紐注意力機制（Sparse Hub Attention）”。該設計徹底摒棄了傳統的兩兩直接通信模式，改用一組可學習的樞紐 Token 作爲共享世界狀態的壓縮中轉站，將計算成本成功降至線性複雜度。在獨立的緩存技術加持下，系統成功實現了每秒24幀(24FPS)的實時動作響應推演。

在訓練層面，項目採用了三階段師生蒸餾法，利用雙向教師模型引導因果學生模型，成功將多步採樣壓縮爲4步採樣，不僅保障了動作的可控性，還有效緩解了自迴歸推演中的誤差累積。

實驗數據顯示，在多人 Minecraft 虛擬環境的記憶、建造等五類核心場景測試中，Gamma-World 相比現有最強模型取得了全面領先，評估視頻質量的 FVD 指標平均降幅超過40%。此外，該框架已成功遷移至真實雙臂機器人的協同任務中，充分驗證了其跨場景的通用性。這不僅標誌着多智能體仿真能力的提升，未來更有望爲多臂醫療協同、工廠多機器人調度以及自動駕駛等物理 AI 領域提供全新的大規模模擬生成基礎設施。

英偉達聯合清華推出 Gamma-World，打破多智能體虛擬仿真天花板

相關推薦

國產端側大模型第一次登上全球旗艦：面壁 MiniCPM 裝進三星 Galaxy Z Fold8 系列

NTT DATA部署Codex： 5 名工程師 3 天的故障分析縮短至 30 分鐘， 9000 名員工已用上AI

微軟經典版Outlook年底前整合Copilot，AI起草郵件功能將覆蓋Win10/Win11

Monday.com 裁員 630 人，聚焦人工智能戰略

OpenAI 的 AI 代理失控事件：人工智能安全的警鐘