騰訊近日推出了一款名爲GameGen-O的創新型視頻模型,這是業界首個專爲開放世界視頻遊戲設計的擴散變換模型。與傳統視頻模型不同,GameGen-O不僅能生成高質量的遊戲內容,還允許用戶像操控遊戲角色一樣實時控制視頻中的角色行動,開創了人工智能與遊戲交互的新紀元。

官方演示視頻

GameGen-O的核心優勢在於其多樣化的內容生成能力和前所未有的交互控制。用戶可以根據需求創造各種角色,如"利維亞的傑拉爾德"或"亞瑟・摩根",並將他們置於四季變換的環境中,展現"摩托騎行"或"下雨"等多樣化場景。更令人興奮的是,GameGen-O支持開放域生成,用戶可以通過結構化指令和操作信號,實時指揮模型生成相應的視頻片段,彷彿在導演自己的虛擬世界。

爲了實現這一突破性技術,騰訊團隊付出了巨大努力。他們構建了首個開放世界視頻遊戲數據集(OGameData),從上百款次世代開放世界遊戲中收集數據。經過嚴格的篩選和處理,最終從32,000個原始視頻中精選出約15,000個高質量視頻。這些視頻經過場景檢測、美學評估、光流分析和語義內容篩選等多重處理,最後通過專家模型和多模態大模型進行結構化註釋,爲模型訓練提供了精細化和互動性的數據基礎。

image.png

GameGen-O的訓練過程也獨具特色,分爲基礎模型預訓練和指令微調兩個階段。在預訓練階段,模型通過文本到視頻和視頻延續任務學習開放域視頻遊戲生成能力。而在指令微調階段,研發團隊凍結了預訓練模型,引入可訓練的InstructNet進行微調,使模型能夠根據多模態結構指令生成後續幀,從而實現了基於指令的視頻生成和交互控制。

image.png

儘管GameGen-O在某些方面的效果還有提升空間,但它無疑是AI驅動遊戲內容創作的重要里程碑。這項技術不僅爲遊戲開發者提供了強大的工具,也爲普通用戶開啓了一個可以自由創造和探索虛擬世界的新時代。隨着技術的不斷完善,我們可以期待在不久的將來,每個人都能輕鬆打造屬於自己的沉浸式遊戲體驗。

GameGen-O的出現標誌着遊戲產業和人工智能領域的又一次深度融合,它不僅展示了騰訊在AI技術方面的實力,也爲整個行業指明瞭未來發展的方向。我們拭目以待,看這項技術將如何改變遊戲創作的格局,爲玩家帶來更多驚喜和可能性。

項目地址:https://top.aibase.com/tool/gamegen-o