香港科技大学や中国科学技術大学などの研究機関の研究者らが最近、GameGen-Xモデルを発表しました。これは、オープンワールドゲームの動画を生成およびインタラクティブに制御するために設計された拡散変換器モデルです。
GameGen-Xは、オープンワールドゲームの動画を自ら生成でき、革新的なキャラクター、ダイナミックな環境、複雑なアクション、多様なイベントの生成など、様々なゲームエンジンの機能をシミュレートできます。さらに、ユーザーとインタラクトし、ゲームプランナーになったような感覚を味わえます。
GameGen-Xの大きな特徴は、インタラクティブな制御性です。現在のゲームの断片に基づいて将来の内容を予測し変更することで、ゲームプレイのシミュレーションを実現します。
ユーザーは、構造化されたテキスト指示やキーボード操作などのマルチモーダル制御信号を使用して、生成されるコンテンツに影響を与え、キャラクターのインタラクションやシーンの内容を制御できます。
GameGen-Xのトレーニングのために、研究者らは、最初の巨大なオープンワールドゲーム動画データセットであるOGameDataを構築しました。このデータセットには、150以上のゲームから得られた100万以上の異なるゲーム動画の断片が含まれており、GPT-4oを使用して有益なテキスト説明が生成されています。
GameGen-Xのトレーニングプロセスは、基本モデルの事前トレーニングと指示微調整の2段階に分かれています。第1段階では、テキストから動画への生成と動画の継続タスクを使用して事前トレーニングを行い、高品質で長シーケンスのオープンワールドゲーム動画を生成できるようにします。
第2段階では、インタラクティブな制御性を実現するために、ゲーム関連のマルチモーダル制御信号のエキスパートを統合したInstructNetモジュールが設計されました。
InstructNetにより、モデルはユーザー入力に基づいて潜在表現を調整できるため、動画生成において、キャラクターのインタラクションとシーンの内容制御が初めて統合されました。指示微調整プロセスでは、InstructNetのみが更新され、事前トレーニング済みの基本モデルは凍結されます。これにより、生成される動画の内容の多様性と品質を損なうことなく、インタラクティブな制御性を統合できます。
実験結果によると、GameGen-Xは高品質なゲームコンテンツの生成において優れた性能を示し、環境とキャラクターに対する優れた制御能力を提供しており、他のオープンソースモデルや商用モデルよりも優れています。
もちろん、このAIはまだ初期段階であり、ゲームプランナーを完全に置き換えるにはまだ長い道のりがあります。しかし、その登場は、ゲーム開発に新たな可能性をもたらしました。ゲームコンテンツのデザインと開発のための新しい方法を提供し、生成モデルが従来のレンダリング技術の補助ツールとしての可能性を示しており、創造的な生成とインタラクティブ機能を効果的に融合させることで、将来のゲーム開発に新たな可能性をもたらします。
プロジェクトアドレス:https://gamegen-x.github.io/