英偉達(NVIDIA)近期展示了其在通用人工智能(AGI)領域的最新突破,推出了一款名爲NitroGen的遊戲智能體基礎模型。與傳統單一用途的 AI 不同,NitroGen 是一款基於 OpenVision 的動作模型,旨在成爲能夠穿梭於各種虛擬世界的“通用代理”。

image.png

爲了讓 NitroGen 掌握複雜的操控邏輯,研究團隊挖掘了一個此前被學術界忽視的“寶庫”:YouTube 和 Twitch 上帶有控制器疊加層的遊戲視頻。通過分析1000多款遊戲、總計超過4萬小時的玩家錄像,NitroGen 學會了如何根據視覺反饋直接生成操作指令。AIbase 瞭解到,研究人員利用模板匹配和微調後的 SegFormer 模型,精準地從海量視頻中提取出了玩家的實時按鍵輸入數據。

在技術架構上,NitroGen 深度集成了英偉達此前發佈的GR00TN1.5機器人模型,這使得它具備了跨平臺的適應能力。測試數據顯示,NitroGen 能夠勝任動作角色扮演、平臺跳躍、Roguelike 等多種完全不同風格的遊戲類型。即使被置於完全陌生、未曾見過的遊戲環境中,它的表現也比從頭訓練的模型成功率高出52%,充分證明了機器人基礎模型在虛擬環境中的通用性。

目前,這支由英偉達、斯坦福及加州理工學院等頂尖學術機構組成的聯合研究團隊,已正式將該項目的論文代碼及相關數據集開源,旨在推動全球 AI 社區在具身智能和通用代理領域的進一步探索。

劃重點:

  • 🎮 海量數據驅動:模型基於 YouTube 和 Twitch 上超過4萬小時的遊戲視頻訓練,通過識別畫面中的虛擬手柄按鍵來學習人類玩家的動作邏輯。

  • 🚀 卓越的通用性:NitroGen 證明了機器人基礎模型可作爲通用智能體運行,在面對完全陌生的遊戲任務時,其成功率較傳統模型提升了52%。

  • 🔓 全面開源共享:英偉達聯合多家名校已公開了 NitroGen 的模型權重、代碼和數據集,爲通用 AI 智能體的發展提供了重要基石。

如果您對 NitroGen 的技術細節感興趣,需要我爲您詳細介紹它是如何從視頻中提取操作邏輯的嗎?