香港科技大學、中國科學技術大學等機構的研究人員近日發佈了 GameGen-X 模型,這是一個專爲生成和互動控制開放世界遊戲視頻而設計的擴散變換器模型。
GameGen-X能自己生成開放世界遊戲視頻,可以模擬各種遊戲引擎功能,包括生成創新角色、動態環境、複雜動作和多樣化事件,還能跟你互動,讓你體驗一把當遊戲策劃的快感。
GameGen-X 的一大亮點在於其互動可控性。它可以根據當前的遊戲片段預測和改變未來內容,從而實現遊戲玩法的模擬。
用戶可以通過多模態控制信號,如結構化文本指令和鍵盤控制,來影響生成的內容,從而實現對角色互動和場景內容的控制。
爲了訓練 GameGen-X,研究人員還構建了第一個大型開放世界遊戲視頻數據集 OGameData。該數據集包含超過100萬個來自150多款遊戲的不同遊戲視頻片段,並利用 GPT-4o 爲其生成了 informative 的文本描述。
GameGen-X 的訓練過程分爲兩個階段:基礎模型預訓練和指令微調。在第一階段,模型通過文本到視頻生成和視頻延續任務進行預訓練,使其能夠生成高質量、長序列的開放域遊戲視頻。
在第二階段,爲了實現互動可控性,研究人員設計了 InstructNet 模塊,該模塊集成了與遊戲相關的多模態控制信號專家。
InstructNet 允許模型根據用戶輸入調整潛在表示,從而首次在視頻生成中統一了角色互動和場景內容控制。在指令微調過程中,只有 InstructNet 被更新,而預訓練的基礎模型被凍結,這使得模型能夠在不損失生成視頻內容多樣性和質量的情況下集成互動可控性。
實驗結果表明,GameGen-X 在生成高質量遊戲內容方面表現出色,並提供了對環境和角色的出色控制能力,優於其他開源和商業模型。
當然,這 AI 現在還只是個 初級階段,離真正取代遊戲策劃還有很長的路要走。但它的出現,無疑給遊戲開發帶來了新的可能性。它爲遊戲內容設計和開發提供了一種新的方法,展示了生成模型作爲傳統渲染技術的輔助工具的潛力,有效地將創意生成與互動功能融合在一起,爲未來的遊戲開發帶來了新的可能性。
項目地址:https://gamegen-x.github.io/