英伟达(NVIDIA)近期展示了其在通用人工智能(AGI)领域的最新突破,推出了一款名为

为了让 NitroGen 掌握复杂的操控逻辑,研究团队挖掘了一个此前被学术界忽视的“宝库”:YouTube 和 Twitch 上带有控制器叠加层的游戏视频。通过分析1000多款游戏、总计超过4万小时的玩家录像,NitroGen 学会了如何根据视觉反馈直接生成操作指令。AIbase 了解到,研究人员利用模板匹配和微调后的 SegFormer 模型,精准地从海量视频中提取出了玩家的实时按键输入数据。
在技术架构上,NitroGen 深度集成了英伟达此前发布的
目前,这支由英伟达、斯坦福及加州理工学院等顶尖学术机构组成的联合研究团队,已正式将该项目的
划重点:
🎮 海量数据驱动:模型基于 YouTube 和 Twitch 上超过4万小时的游戏视频训练,通过识别画面中的虚拟手柄按键来学习人类玩家的动作逻辑。
🚀 卓越的通用性:NitroGen 证明了机器人基础模型可作为通用智能体运行,在面对完全陌生的游戏任务时,其成功率较传统模型提升了52%。
🔓 全面开源共享:英伟达联合多家名校已公开了 NitroGen 的模型权重、代码和数据集,为通用 AI 智能体的发展提供了重要基石。
如果您对 NitroGen 的技术细节感兴趣,需要我为您详细介绍它是如何从视频中提取操作逻辑的吗?
