World and Human Action Models 實現遊戲創意構思

生成式AI在文字、圖像、音訊、音樂、影片及電玩遊戲等領域快速發展,並已廣泛應用於創意產業,例如輔助不同技能的團隊成員溝通,或在缺乏美術人員時自動化視覺製作。本文以遊戲開發為場景,透過對27位跨領域遊戲創作者的半結構式訪談,歸納出生成式AI模型若要有效支援創意構思,需具備三項核心能力:一致性(consistency)——生成序列須符合遊戲世界的物理與機制;多樣性(diversity)——能產出多元且有意義的不同結果以激發靈感;以及持久性(persistency)——能保留使用者對生成內容的直接修改,使創作者維持對迭代流程的控制。

基於上述需求,研究團隊提出 World and Human Action Model(WHAM),以 Transformer 為骨幹的自迴歸序列預測模型。WHAM 將人類遊玩過程建模為交替排列的影像觀測與控制器動作之離散 token 序列,再以因果 Transformer 進行下一個 token 預測。最大規模的 WHAM 採用 1.6B 參數 Transformer,上下文長度為1秒(10幀,5,560 tokens),使用來自 Ninja Theory 工作室之3D多人對戰遊戲 Bleeding Edge 的大規模人類遊玩資料進行訓練,涵蓋約50萬場匿名遊戲對局(超過7年持續遊玩量)、七張地圖,影像以原始解析度 300×180 編碼為540個 token。研究同時訓練了從 15M 到 894M 參數不等的較小模型,以 128×128 解析度、256 token 編碼,於單一地圖 Skygarden 資料集上進行縮放規律分析。

評估方面,研究針對三項能力設計對應指標。一致性以 Fréchet Video Distance(FVD)衡量生成遊玩序列與真實人類遊玩的吻合程度,結果顯示 FVD 隨模型規模與計算量增加而持續改善,且 1.6B WHAM 能生成長達2分鐘的高度一致遊玩序列。多樣性以 Wasserstein 距離衡量模型生成動作分佈與人類動作分佈的差異,所有模型在訓練過程中均逐漸逼近人類基準線,並透過提高動作損失權重進一步改善。持久性方面,研究者手動將遊戲內物件(Powercell)、角色與地圖元素(Vertical Jumppad)插入至合理但全新的位置,再由 WHAM 生成後續影像;在以五幀編輯影像作為條件時,所有元素類型的持久率均達85%以上。此外,團隊建構了 WHAM Demonstrator 概念原型,提供視覺化互動介面,讓使用者能以圖像(而非文字)提示模型、瀏覽多條分支的生成遊玩序列、在任意幀上進行修改與重新生成,從而支援發散性思考與迭代微調的完整創作流程。模型權重、評估資料集與示範工具均已公開於 HuggingFace。

圖一、展示了研究團隊從使用者研究中歸納出的三項模型核心能力,以及 WHAM Demonstrator 的操作介面。(a) 一致性(Consistency):生成的遊玩序列須隨時間保持連貫並遵循遊戲機制,圖中玩家角色沿階梯向上移動,符合遊戲世界的物理規則。(b) 多樣性(Diversity):模型應能從同一起始情境產出多條不同但皆合理的遊玩路徑,以支援發散性思考;圖中展示三條角色可能行進的分支序列。(c) 持久性(Persistency):使用者對畫面的修改(如右側新增一名角色)應被模型吸收並持續反映在後續生成的影像中。(d) WHAM Demonstrator 概念原型截圖,提供視覺化介面讓使用者以圖像提示模型、瀏覽多分支生成結果並進行迭代修改。

圖二、呈現 WHAM 的整體模型架構。人類遊玩過程被轉化為影像觀測與控制器動作交替排列的離散 token 序列:影像透過 VQGAN 編碼器(含編碼與量化步驟)從像素空間壓縮為離散潛在表示,控制器動作同樣離散化後,兩者交錯排列送入 1.6B 參數的因果 Transformer(上下文長度 5,560 tokens)進行下一個 token 預測。模型不使用顯式分隔符來區分觀測與動作 token,而是透過學習到的位置嵌入自行推斷。生成時,模型以自迴歸方式逐步取樣下一個 token,並可在生成過程中替換影像或動作 token 來實現使用者的直接修改(即持久性的基礎)。VQGAN 編碼器/解碼器以重建損失與感知損失進行訓練,整體框架使人類遊玩資料的豐富時序結構得以被學習,從而支援一致性、多樣性與持久性三項關鍵能力。


撰文:陳怡亨


原始論文:Kanervisto, A., Bignell, D., Wen, L.Y. et al. World and Human Action Models towards gameplay ideation. Nature 638, 656–663 (2025).

留言