Skywork AI 團隊近日發佈技術報告,宣佈在交互式世界模型領域取得重大突破。其最新研發的 Matrix-Game3.0 系統,首次720p 高清分辨率下實現了每秒40幀(FPS) 的實時視頻生成速度,併成功解決了 AI 視頻生成中長期存在的“長效記憶”缺失問題。

image.png

核心突破:攻克 AI 視頻的“失憶”頑疾

長期以來,AI 視頻生成模型在處理長序列互動時,常因缺乏有效記憶而出現空間結構錯亂或風格漂移。Matrix-Game3.0通過引入相機感知的記憶檢索機制打破了這一瓶頸。

該系統不僅能根據當前的相機姿態精準檢索歷史畫面,還採用了統一的自注意力架構,將遠期記憶、近期歷史與當前預測幀置於同一空間進行聯合建模。實驗證明,即使在長達數分鐘的複雜交互中,系統依然能保持極高的時空一致性,確保用戶在“故地重遊”時,場景細節與最初生成的畫面高度吻合。

工業級數據引擎:海量3A 遊戲數據注入

爲了讓 AI 深刻理解真實世界的物理邏輯,研發團隊構建了一套規模龐大的“數據工廠”:

虛擬現實同步生成: 利用虛幻引擎5(UE5)開發了 Unreal-Gen 平臺,可全自動生成包含超過1億種角色組合的電影級交互視頻。

3A 大作自動化採集: 系統支持從《俠盜獵車手5》、《賽博朋克2077》等頂級遊戲中大規模自動錄製高質量的交互數據。

多維真實場景補充: 整合了超過10,000個真實世界的4K 序列,涵蓋室內、城市及航拍等多樣化場景。

image.png

性能優化:通過“瘦身”實現極速響應

爲滿足實時交互對超低延遲的要求,Matrix-Game3.0在推理架構上進行了深度優化。團隊採用了多段自迴歸蒸餾策略,並結合了 VAE 解碼器剪枝技術(剪枝率高達75%),使解碼速度提升了5倍以上。此外,通過 INT8量化等手段,系統進一步壓低了計算開銷,確保在5B 參數規模下依然能流暢運行。

未來願景:邁向無限生成的數字宇宙

除了5B 版本,團隊還展示了參數規模達 28B 的 MoE 模型。隨着模型規模的提升,AI 在動態模擬、場景過渡以及通用泛化能力上表現出更強的生命力。

業內專家指出,Matrix-Game3.0的問世爲機器人訓練、XR 擴展現實以及下一代沉浸式娛樂提供了關鍵的技術底座。這標誌着 AI 從簡單的“生成片段”進化到了“實時構建可交互世界”的新階段。

論文地址:https://arxiv.org/pdf/2604.08995