近日,科技巨頭微軟公開了一項引人注目的研究項目——WHAMM(World and Human Action MaskGIT Model)。這是一個創新的人工智能模型,能夠完全在AI模型內部生成並運行經典遊戲《雷神之錘II》,實時呈現可供玩家操作的遊戲版本。這項研究隸屬於微軟的Co pil ot Labs,旨在探索生成式AI在互動媒體領域的潛力與邊界。

顛覆傳統:AI模型直接生成可玩遊戲
與以往的遊戲AI主要集中在控制遊戲角色或生成遊戲內容片段不同,WHAMM的獨特之處在於它能夠從零開始生成整個遊戲環境和動態過程,並且能夠響應玩家的實時操作。這意味着玩家可以直接與由AI模型“想象”出來的《雷神之錘II》世界進行互動,例如移動、跳躍、射擊和放置物體。這款AI生成的演示版本還能夠保存玩家對環境所做的改變,並允許探索隱藏區域。
WHAMM是微軟“Muse”模型家族的一員,該家族專注於爲遊戲開發提供生成式AI工具。此前的版本WHAM-1.6B曾被訓練用於遊戲《Bleeding Edge》,但性能僅爲每秒約一幀。WHAMM在性能上實現了顯著飛躍,能夠生成每秒超過十幀的畫面,足以支持模型內部的實時互動。
技術突破:更少數據,更快生成
WHAMM的成功得益於兩項關鍵的技術創新:大幅減少的訓練數據和全新的技術策略。相比WHAM-1.6B使用了長達七年的遊戲數據進行訓練,WHAMM僅需一週從單個關卡收集的《雷神之錘II》遊戲數據。這些由專業測試人員記錄的數據提供了高質量、有針對性的遊戲行爲示例,使得模型能夠更高效地學習。
在技術策略上,WHAMM摒棄了WHAM-1.6B所採用的自迴歸方法(逐個生成圖像標記),轉而採用MaskGIT策略。這種方法允許模型在多次迭代中並行生成所有圖像標記。這一改變顯著提升了生成速度,並且輸出分辨率也從300×180像素提高到了640×360像素。
WHAMM系統的工作流程分爲三個階段:首先,使用ViT-VQGAN將圖像轉換爲標記;然後,一個擁有約5億參數的“骨幹”Transformer根據上下文預測接下來會發生什麼;最後,一個擁有2.5億參數的較小“細化”模塊通過多次迭代改進預測的圖像標記。爲了生成新的幀,模型會使用前九個圖像-動作對作爲上下文。
侷限猶存:探索AI遊戲開發的未來方向
儘管WHAMM展示了令人興奮的潛力,但它並非完美地復刻了原始的《雷神之錘II》。由於訓練數據集的限制,模型生成的環境是近似的,導致了一些技術上的不足。例如,敵方角色看起來較爲模糊,戰鬥缺乏真實感,且生命值指示不可靠。此外,如果物體在屏幕外停留超過0.9秒(模型的上下文窗口限制),就會消失。可玩區域僅限於關卡的某個片段,一旦到達該區域的終點,模擬就會停止。同時,輸入延遲仍然較高,玩家的操作和系統響應之間存在明顯的延遲。
微軟將WHAMM視爲未來AI輔助遊戲開發的一個實驗性基礎。它也代表了當前探索如何將生成式AI應用於遊戲開發的衆多新興工具之一。其他類似的嘗試包括GameGen-O(專注於生成開放世界模擬)、以及谷歌和Deepmind的GameNGen和DIAMOND(用於模擬《DOOM》和《反恐精英》等遊戲)。這些模型雖然取得了顯著進展,但仍然面臨着低分辨率輸出、有限的內存和上下文感知等技術限制。
遊戲產業擁抱AI:降本增效的潛力
遊戲產業尤其容易接納生成式AI,因爲它融合了代碼、設計、故事敘述和多媒體等多個學科,且開發週期常常受到預算和時間限制。這種創意複雜性和資源壓力的結合,使得遊戲製作特別容易接受能夠部分自動化結構化任務的工具。
總結
微軟發佈的WHAMM模型通過在AI模型內部實時生成可玩的《雷神之錘II》演示,展示了生成式AI在互動娛樂領域的巨大潛力。儘管目前仍存在一些侷限性,但WHAMM的技術突破,例如更高效的數據學習和並行的圖像生成策略,爲未來AI驅動的遊戲開發開闢了新的道路。
