NVIDIA 的人工智能研究團隊近日推出了 NitroGen,這是一款針對通用遊戲代理的開放視覺行動基礎模型。NitroGen 能夠從網絡視頻中直接學習如何通過遊戲畫面和手柄操作來玩商業遊戲,整個模型經過40,000小時的遊戲體驗訓練,覆蓋了超過1,000款遊戲,同時還提供了開放數據集、通用模擬器和預訓練策略。

NitroGen 的構建流程始於公開的遊戲視頻,這些視頻包含輸入疊加層,如遊戲手柄的可視化。研究團隊收集了71,000小時的原始視頻,經過質量過濾後,最終得到40,000小時的精選數據,涵蓋了818位創作者的38,739個視頻。數據顯示,這些視頻跨越846款遊戲,其中34.9% 的遊戲時間來自動作角色扮演類遊戲,18.4% 來自平臺類遊戲,9.2% 來自動作冒險類遊戲,剩餘則涵蓋了體育、 roguelike、賽車等多個類別。
在提取每幀動作的過程中,NitroGen 使用了三階段的提取流程。首先,系統通過300個控制器模板定位手柄疊加層。接着,使用基於 SegFormer 的分類分割模型解析手柄區域,最後對座標進行精細化處理。這一流程確保了動作預測的準確性,使得 NitroGen 能夠有效進行大規模行爲克隆。
此外,NitroGen 還配備了一個通用模擬器,它能夠將商業 Windows 遊戲包裝爲兼容 Gymnasium 的接口,支持逐幀互動,且無需修改遊戲代碼。這使得 NitroGen 可以在多個遊戲中直接應用同一策略。
NitroGen 採用了基於 Diffusion Transformer 的策略架構,該模型在256×256分辨率的 RGB 圖像上運行。經過預訓練後,NitroGen 在多個任務上展現了良好的零 - shot 評估能力,任務完成率在45% 至60% 之間。該模型的預訓練使其在遷移到新遊戲時,表現出顯著的性能提升,相較於從頭訓練,提升幅度可達52%。
huggingface:https://huggingface.co/nvidia/NitroGen
劃重點:
📊 NitroGen 是一款開放視覺行動基礎模型,能夠從網絡視頻中直接學習遊戲操作。
🎮 數據集涵蓋40,000小時遊戲視頻,覆蓋超過1,000款遊戲。
🚀 預訓練的 NitroGen 在新遊戲中的表現顯著提升,相較於從頭訓練有高達52% 的性能改善。
