Skywork AIチームは最近、技術報告を発表し、インタラクティブな世界モデル分野で重要な進展を遂げたことを発表しました。最新開発したMatrix-Game3.0システムは、初めて720pの高解像度で1秒あたり40フレーム(FPS)のリアルタイム動画生成速度を実現し、AI動画生成において長年解決されていなかった「長期記憶」の欠如問題を成功裏に解決しました。

中心的な突破:AI動画の「記憶喪失」の難題を克服
長い間、AI動画生成モデルは長時間の相互作用処理において、有効な記憶が不足しているため空間構造の混乱やスタイルの変化が起こる傾向がありました。Matrix-Game3.0はカメラ感知の記憶検索メカニズムを導入することで、この障壁を打ち破りました。
このシステムは現在のカメラポジションに基づいて正確に過去の画面を検索でき、さらに統一された自己注意アーキテクチャを採用し、遠距離の記憶、近時の履歴と現在の予測フレームを同じ空間で統合してモデル化しています。実験結果によると、数分に及ぶ複雑な相互作用でも、システムは非常に高い時空間の一貫性を維持しており、ユーザーが「再訪問」する際には、シーンの細部が最初に生成されたものと非常に一致しています。
産業レベルのデータエンジン:大量の3Aゲームデータの注入
AIが現実世界の物理的論理を深く理解できるようにするために、研究チームは大規模な「データ工場」を構築しました:
仮想現実同期生成: Unreal Engine 5(UE5)を使用して、1億種以上のキャラクター組み合わせを含む映画級の相互作用動画を完全自動生成可能なUnreal-Genプラットフォームを開発しました。
3Aタイトルの自動収集: システムは『GTA V』や『Cyberpunk 2077』などのトップゲームから大量に高品質な相互作用データを自動録画できます。
多面的な現実場面の補完: 室内、都市、航空撮影など多様な場面を含む10,000以上の現実世界の4Kシーケンスを統合しています。

パフォーマンス最適化:“軽量化”により超高速応答を実現
リアルタイム相互作用における極めて低い遅延要件に対応するため、Matrix-Game3.0は推論アーキテクチャを深度的に最適化しました。チームは複数セグメントの自己回帰蒸留戦略を採用し、さらにVAEデコーダーの枝刈り技術(枝刈り率は75%まで)を組み合わせ、デコード速度を5倍以上向上させました。また、INT8量子化などの手法を通じて、計算負荷をさらに削減し、5Bパラメータ規模でもスムーズに動作できるようにしました。
未来へのビジョン:無限生成のデジタル宇宙へ
5Bバージョンに加え、チームはパラメータ規模が28BのMoEモデルも紹介しました。モデル規模が拡大するにつれて、AIは動的シミュレーション、シーンの移行、汎化能力においてより強力な生命力を示しています。
業界の専門家は、Matrix-Game3.0の登場がロボット訓練、XR拡張現実、そして次世代の没入型エンターテインメントにとって重要な技術基盤を提供したと指摘しています。これはAIが単なる「生成された断片」から「リアルタイムで構築可能な相互作用世界」への進化を示すものです。
論文のリンク:https://arxiv.org/pdf/2604.08995
