人工知能技術の急速な発展により、映画『マトリックス』のような仮想世界が現実のものとなりつつあります。最近、全中国人チームによって開発された「The Matrix」というAIベースの世界シミュレーターが発表されました。この革新的な成果は、高精細な720pのリアルなシーン動画を無限に生成し、リアルタイムでのインタラクションもサポートします。
このシミュレーターは14分のデモ動画を公開していますが、実際には1時間の長尺動画の生成も可能です。砂漠、草原、水面、都市など、多様なシーンが含まれています。ユーザーはキーボードのWASDキーでリアルタイムに操作し、毎秒16フレームのダイナミックな映像を楽しむことができます。
「The Matrix」プロジェクトの開発チームは、アリババ、香港大学、ウォータールー大学、そしてカナダのAI研究機関であるVector Instituteのメンバーで構成されています。プロジェクト名が「The Matrix」と名付けられたのは、映画の有名なセリフ「これはあなたが知っている世界です。今は、私たちがマトリックスと呼ぶ神経インターフェース・シミュレーションシステムの中にあるだけです。」にインスパイアされたからです。
プロンプト:admin@matrix: 高架道路または橋の下に伸びる長くまっすぐな道路を描いた都市環境です。道路脇には、建設中または立ち入り禁止を示すフェンスがあります。道路には2本の黄色い線が引かれ、巨大なコンクリートの柱が上部の道路を支え、下に影を落としています。左側の壁には、監視または警報に使用されていると思われる赤いデジタル番号と、建設資材やバリケードがあり、活発な開発が行われていることを示しています。右側には、インフラとネオンブルーの「PAWN SHOP」の看板があり、近くの商業活動を示しています。高架道路の先には、高い近代的な建物が立ち並び、窓の明かりが都市景観の活気を示しています。街灯とデジタルディスプレイが限られた照明を提供し、未来的な雰囲気を醸し出しています。活動の兆候はあるものの、道路には車両や歩行者がおらず、静けさを感じさせます。橋の外側の空の部分は、橋の下の影と対照的であり、周囲の建設と高度な建築物が、進化し続ける未来的な都市の雰囲気を作り出しています。
このプロジェクトの最大のポイントは、前例のないフレームレベルのコントロールを提供することで、ユーザーのあらゆる操作が即座に反映され、まるで自分がその場にいるかのような体験ができます。ユーザーは一人称視点または三人称視点で、砂漠、森林、都市など様々なシーンを車で走り抜ける体験ができます。『Forza Horizon 5』や『サイバーパンク2077』などの3A級ゲームのデータでトレーニングされたこのシステムは、現実とほとんど変わらないシーンを生成できます。さらに重要なのは、ユーザーが様々な環境をシームレスに移動しながら、連続した動画体験ができることです。
動画の無限生成と高画質の映像に加えて、「The Matrix」はゼロショット汎化能力も備えています。つまり、対応するトレーニングデータがなくても、異なる環境における物体の挙動や相互作用を理解し、予測することができます。
このシミュレーションのトレーニングデータは、主に3つの3A級ゲームの教師ありデータと大量の現実世界の教師なし動画から得られています。従来の研究とは異なり、この技術の革新性は学習能力にあり、未知の環境でも正確な生成が可能です。
例えば、シミュレーターは「BMW X3が環境の中で走行するシーン」や「車が水の中を泳ぐ」といった不思議な映像を表示できます。技術的な観点から見ると、「The Matrix」の中核は、インタラクションモジュール、ウィンドウ移動ノイズ除去プロセスモデル、そして流れの一貫性モデルの3つのモジュールで構成されています。インタラクションモジュールはユーザーの入力を理解し、動画生成に統合します。ウィンドウ移動ノイズ除去プロセスモデルは、長尺動画の生成を可能にし、従来モデルの長シーケンス生成におけるボトルネックを解決します。最後に、流れの一貫性モデルの統合により、推論速度が大幅に向上し、リアルタイム生成を実現しています。
プロジェクト責任者のHongyang Zhang氏とRuili Feng氏は、今後もこの技術の開発を推進し、ユーザーによりリアルな仮想体験を提供することを目指しています。
プロンプト:動画は、オーバーサイズのサングラスをかけ、黒服を着た女性が車内にいるクローズアップです。
プロジェクト入口:https://thematrix1999.github.io/
論文:https://thematrix1999.github.io/article/the_matrix.pdf
要点:
🌐AI版『マトリックス』シミュレーター「The Matrix」が登場。720p動画を無限に生成可能。
🎮ユーザーはリアルタイムで動画シーンを操作し、毎秒16フレームのダイナミックな映像を体験。
🚀ゼロショット汎化能力を備え、様々な環境での物体の挙動を予測可能。