World and Human Action Models 實現遊戲創意構思

3/30/2026 08:00:00 上午

World and Human Action Models 實現遊戲創意構思

生成式AI在文字、圖像、音訊、音樂、影片及電玩遊戲等領域快速發展，並已廣泛應用於創意產業，例如輔助不同技能的團隊成員溝通，或在缺乏美術人員時自動化視覺製作。本文以遊戲開發為場景，透過對27位跨領域遊戲創作者的半結構式訪談，歸納出生成式AI模型若要有效支援創意構思，需具備三項核心能力：一致性（consistency）——生成序列須符合遊戲世界的物理與機制；多樣性（diversity）——能產出多元且有意義的不同結果以激發靈感；以及持久性（persistency）——能保留使用者對生成內容的直接修改，使創作者維持對迭代流程的控制。

基於上述需求，研究團隊提出 World and Human Action Model（WHAM），以 Transformer 為骨幹的自迴歸序列預測模型。WHAM 將人類遊玩過程建模為交替排列的影像觀測與控制器動作之離散 token 序列，再以因果 Transformer 進行下一個 token 預測。最大規模的 WHAM 採用 1.6B 參數 Transformer，上下文長度為1秒（10幀，5,560 tokens），使用來自 Ninja Theory 工作室之3D多人對戰遊戲 Bleeding Edge 的大規模人類遊玩資料進行訓練，涵蓋約50萬場匿名遊戲對局（超過7年持續遊玩量）、七張地圖，影像以原始解析度 300×180 編碼為540個 token。研究同時訓練了從 15M 到 894M 參數不等的較小模型，以 128×128 解析度、256 token 編碼，於單一地圖 Skygarden 資料集上進行縮放規律分析。

評估方面，研究針對三項能力設計對應指標。一致性以 Fréchet Video Distance（FVD）衡量生成遊玩序列與真實人類遊玩的吻合程度，結果顯示 FVD 隨模型規模與計算量增加而持續改善，且 1.6B WHAM 能生成長達2分鐘的高度一致遊玩序列。多樣性以 Wasserstein 距離衡量模型生成動作分佈與人類動作分佈的差異，所有模型在訓練過程中均逐漸逼近人類基準線，並透過提高動作損失權重進一步改善。持久性方面，研究者手動將遊戲內物件（Powercell）、角色與地圖元素（Vertical Jumppad）插入至合理但全新的位置，再由 WHAM 生成後續影像；在以五幀編輯影像作為條件時，所有元素類型的持久率均達85%以上。此外，團隊建構了 WHAM Demonstrator 概念原型，提供視覺化互動介面，讓使用者能以圖像（而非文字）提示模型、瀏覽多條分支的生成遊玩序列、在任意幀上進行修改與重新生成，從而支援發散性思考與迭代微調的完整創作流程。模型權重、評估資料集與示範工具均已公開於 HuggingFace。

圖一、展示了研究團隊從使用者研究中歸納出的三項模型核心能力，以及 WHAM Demonstrator 的操作介面。(a) 一致性（Consistency）：生成的遊玩序列須隨時間保持連貫並遵循遊戲機制，圖中玩家角色沿階梯向上移動，符合遊戲世界的物理規則。(b) 多樣性（Diversity）：模型應能從同一起始情境產出多條不同但皆合理的遊玩路徑，以支援發散性思考；圖中展示三條角色可能行進的分支序列。(c) 持久性（Persistency）：使用者對畫面的修改（如右側新增一名角色）應被模型吸收並持續反映在後續生成的影像中。(d) WHAM Demonstrator 概念原型截圖，提供視覺化介面讓使用者以圖像提示模型、瀏覽多分支生成結果並進行迭代修改。

圖二、呈現 WHAM 的整體模型架構。人類遊玩過程被轉化為影像觀測與控制器動作交替排列的離散 token 序列：影像透過 VQGAN 編碼器（含編碼與量化步驟）從像素空間壓縮為離散潛在表示，控制器動作同樣離散化後，兩者交錯排列送入 1.6B 參數的因果 Transformer（上下文長度 5,560 tokens）進行下一個 token 預測。模型不使用顯式分隔符來區分觀測與動作 token，而是透過學習到的位置嵌入自行推斷。生成時，模型以自迴歸方式逐步取樣下一個 token，並可在生成過程中替換影像或動作 token 來實現使用者的直接修改（即持久性的基礎）。VQGAN 編碼器/解碼器以重建損失與感知損失進行訓練，整體框架使人類遊玩資料的豐富時序結構得以被學習，從而支援一致性、多樣性與持久性三項關鍵能力。

撰文：陳怡亨

原始論文：Kanervisto, A., Bignell, D., Wen, L.Y. et al. World and Human Action Models towards gameplay ideation. Nature 638, 656–663 (2025).

https://doi.org/10.1038/s41586-025-08600-3

搜尋此網誌

神經妙算

World and Human Action Models 實現遊戲創意構思

留言

張貼留言

熱門文章

RAG降低醫學問答AI的幻覺

理解意識：比較兩大領先理論的突破性研究

所以視網膜到底有沒有長反?