AI 交互新突破：Skywork AI 發佈 Matrix-Game 3.0，實現 720p 40 幀實時高清“世界生成”

Skywork AI 團隊近日發佈技術報告，宣佈在交互式世界模型領域取得重大突破。其最新研發的 Matrix-Game3.0 系統，首次在 720p 高清分辨率下實現了每秒40幀（FPS）的實時視頻生成速度，併成功解決了 AI 視頻生成中長期存在的“長效記憶”缺失問題。

核心突破:攻克 AI 視頻的“失憶”頑疾

長期以來，AI 視頻生成模型在處理長序列互動時，常因缺乏有效記憶而出現空間結構錯亂或風格漂移。Matrix-Game3.0通過引入相機感知的記憶檢索機制打破了這一瓶頸。

該系統不僅能根據當前的相機姿態精準檢索歷史畫面，還採用了統一的自注意力架構，將遠期記憶、近期歷史與當前預測幀置於同一空間進行聯合建模。實驗證明，即使在長達數分鐘的複雜交互中，系統依然能保持極高的時空一致性，確保用戶在“故地重遊”時，場景細節與最初生成的畫面高度吻合。

工業級數據引擎:海量3A 遊戲數據注入

爲了讓 AI 深刻理解真實世界的物理邏輯，研發團隊構建了一套規模龐大的“數據工廠”:

虛擬現實同步生成: 利用虛幻引擎5（UE5）開發了 Unreal-Gen 平臺，可全自動生成包含超過1億種角色組合的電影級交互視頻。

3A 大作自動化採集: 系統支持從《俠盜獵車手5》、《賽博朋克2077》等頂級遊戲中大規模自動錄製高質量的交互數據。

多維真實場景補充: 整合了超過10，000個真實世界的4K 序列，涵蓋室內、城市及航拍等多樣化場景。

性能優化:通過“瘦身”實現極速響應

爲滿足實時交互對超低延遲的要求，Matrix-Game3.0在推理架構上進行了深度優化。團隊採用了多段自迴歸蒸餾策略，並結合了 VAE 解碼器剪枝技術（剪枝率高達75%），使解碼速度提升了5倍以上。此外，通過 INT8量化等手段，系統進一步壓低了計算開銷，確保在5B 參數規模下依然能流暢運行。

未來願景:邁向無限生成的數字宇宙

除了5B 版本，團隊還展示了參數規模達 28B 的 MoE 模型。隨着模型規模的提升，AI 在動態模擬、場景過渡以及通用泛化能力上表現出更強的生命力。

業內專家指出，Matrix-Game3.0的問世爲機器人訓練、XR 擴展現實以及下一代沉浸式娛樂提供了關鍵的技術底座。這標誌着 AI 從簡單的“生成片段”進化到了“實時構建可交互世界”的新階段。

論文地址：https://arxiv.org/pdf/2604.08995

AI 交互新突破：Skywork AI 發佈 Matrix-Game 3.0，實現 720p 40 幀實時高清“世界生成”

核心突破:攻克 AI 視頻的“失憶”頑疾

工業級數據引擎:海量3A 遊戲數據注入

性能優化:通過“瘦身”實現極速響應

未來願景:邁向無限生成的數字宇宙

相關推薦

字節跳動 Seedance2.5模型將於7月16日全量開放 API

可靈AI 獲 30 億美元融資，估值達 180 億美元創視頻大模型融資紀錄

可靈AI 融資傳聞再起：180 億美元估值背後的資本博弈

AI音樂視頻創作新風向：立刻MV 1. 1 版本實現“一鍵成片”跨越

xAI發佈Grok Imagine Video1.5:一張圖片秒變視頻，直面Google Veo競爭