在遊戲開發領域,場景的多樣性和創新性一直是一個難題。近期,香港大學與快手科技聯手研發了一個名爲 GameFactory 的創新框架,旨在解決遊戲視頻生成中的場景泛化問題。這一框架利用了預訓練的視頻擴散模型,能夠在開放域的視頻數據上進行訓練,從而生成全新且多樣化的遊戲場景。

image.png

視頻擴散模型作爲一種先進的生成技術,近年來在視頻生成和物理模擬領域展現出巨大潛力。這些模型能夠像視頻生成工具一樣,響應用戶的操作輸入,如鍵盤和鼠標,進而生成相應的遊戲畫面。然而,場景泛化,指的是超越現有遊戲場景創造全新遊戲場景的能力,仍然是這一領域的重大挑戰。雖然大量收集動作標註的視頻數據集是解決這一問題的直接方法,但這種方法耗時耗力,尤其是在開放域場景中更顯不切實際。

GameFactory 框架的推出正是爲了解決這一難題。通過預訓練的視頻擴散模型,GameFactory 能夠避免對特定遊戲數據集的過度依賴,並且支持生成多樣化的遊戲場景。此外,爲了彌補開放域先驗知識與有限遊戲數據集之間的差距,GameFactory 還採用了獨特的三階段訓練策略。

第一階段,利用 LoRA(低秩適配)微調預訓練模型,使其適應特定的遊戲領域,並保留原始參數。第二階段則凍結預訓練參數,專注於訓練動作控制模塊,以避免風格和控制的混淆。最後,在第三階段中,移除 LoRA 權重,保留動作控制模塊參數,使系統能夠在不同的開放域場景中生成受控的遊戲視頻。

研究人員還評估了不同控制機制的有效性,發現交叉注意力機制在處理鍵盤輸入等離散控制信號時表現更優,而拼接方法在處理鼠標移動信號時效果更佳。GameFactory 還支持自迴歸動作控制,能夠生成無限長度的交互式遊戲視頻。此外,研究團隊還發布了高質量的動作標註視頻數據集 GF-Minecraft,以供框架的訓練和評估使用。

論文:https://arxiv.org/abs/2501.08325

劃重點:

🌟 GameFactory 框架由香港大學與快手科技聯合研發,旨在解決遊戲視頻生成中的場景泛化問題。  

🎮 該框架利用預訓練的視頻擴散模型,能夠生成多樣化的遊戲場景,並採用三階段訓練策略提升效果。  

📊 研究人員還發布了動作標註視頻數據集 GF-Minecraft,以支持 GameFactory 的訓練和評估。