NVIDIAのAI研究チームは、近日、一般的なゲームエージェント向けのオープン視覚行動ベースモデル「NitroGen」をリリースしました。NitroGenは、ネットワーク動画から直接ゲーム画面とコントローラ操作を通じて商用ゲームをプレイする方法を学ぶことができます。このモデルは40,000時間のゲーム体験で訓練され、1,000以上のゲームをカバーしており、オープンデータセット、汎用シミュレータ、および事前学習された戦略も提供されています。

NitroGenの構築プロセスは、公開されているゲーム動画から始まります。これらの動画には、ゲームコントローラーの可視化などの入力オーバーレイが含まれています。研究チームは71,000時間の原始的な動画を収集し、品質フィルタリングを経て最終的に40,000時間の選別されたデータを得ました。これは818人のクリエイターによる38,739本の動画に該当します。これらのデータは846種類のゲームをカバーしており、そのうち34.9%がアクションRPG、18.4%がプラットフォーム、9.2%がアクションアドベンチャーであり、残りはスポーツ、ローグライク、レーシングなどさまざまなジャンルです。
各フレームのアクションを抽出する際、NitroGenは3段階の抽出フローを使用しています。まず、システムは300個のコントローラテンプレートを使用してコントローラーオーバーレイを検出します。次に、SegFormerに基づく分類セグメンテーションモデルを使用してコントローラー領域を解析し、最後に座標を詳細に処理します。このフローにより、アクション予測の正確性が確保され、NitroGenは大規模な行動クローンを効果的に行うことができます。
さらに、NitroGenは汎用シミュレータを備えており、商用WindowsゲームをGymnasiumと互換性のあるインターフェースにパッケージ化し、ゲームコードの変更なしにフレーム単位の対話が可能です。これにより、NitroGenは複数のゲームで同じ戦略を直接適用できます。
NitroGenはDiffusion Transformerに基づく戦略アーキテクチャを採用しており、256×256解像度のRGB画像上で動作します。事前学習後、NitroGenはさまざまなタスクにおいて良好なゼロショット評価能力を示し、タスク完了率は45%〜60%の範囲にあります。このモデルの事前学習により、新しいゲームへの移行時の性能向上が顕著であり、頭からトレーニングするよりも最大で52%のパフォーマンス改善が見られます。
huggingface:https://huggingface.co/nvidia/NitroGen
重要なポイント:
📊 NitroGenは、ネットワーク動画から直接ゲーム操作を学ぶことができるオープン視覚行動ベースモデルです。
🎮 データセットは40,000時間のゲーム動画をカバーし、1,000以上のゲームを網羅しています。
🚀 事前学習されたNitroGenは、新しいゲームでのパフォーマンスが大幅に向上しており、頭からトレーニングする場合と比較して最大52%のパフォーマンス改善があります。
