World and Human Action Models 實現遊戲創意構思
生成式AI在文字、圖像、音訊、音樂、影片及電玩遊戲等領域快速發展,並已廣泛應用於創意產業,例如輔助不同技能的團隊成員溝通,或在缺乏美術人員時自動化視覺製作。本文以遊戲開發為場景,透過對27位跨領域遊戲創作者的半結構式訪談,歸納出生成式AI模型若要有效支援創意構思,需具備三項核心能力:一致性(consistency)——生成序列須符合遊戲世界的物理與機制;多樣性(diversity)——能產出多元且有意義的不同結果以激發靈感;以及持久性(persistency)——能保留使用者對生成內容的直接修改,使創作者維持對迭代流程的控制。 基於上述需求,研究團隊提出 World and Human Action Model(WHAM),以 Transformer 為骨幹的自迴歸序列預測模型。WHAM 將人類遊玩過程建模為交替排列的影像觀測與控制器動作之離散 token 序列,再以因果 Transformer 進行下一個 token 預測。最大規模的 WHAM 採用 1.6B 參數 Transformer,上下文長度為1秒(10幀,5,560 tokens),使用來自 Ninja Theory 工作室之3D多人對戰遊戲 Bleeding Edge 的大規模人類遊玩資料進行訓練,涵蓋約50萬場匿名遊戲對局(超過7年持續遊玩量)、七張地圖,影像以原始解析度 300×180 編碼為540個 token。研究同時訓練了從 15M 到 894M 參數不等的較小模型,以 128×128 解析度、256 token 編碼,於單一地圖 Skygarden 資料集上進行縮放規律分析。 評估方面,研究針對三項能力設計對應指標。一致性以 Fréchet Video Distance(FVD)衡量生成遊玩序列與真實人類遊玩的吻合程度,結果顯示 FVD 隨模型規模與計算量增加而持續改善,且 1.6B WHAM 能生成長達2分鐘的高度一致遊玩序列。多樣性以 Wasserstein 距離衡量模型生成動作分佈與人類動作分佈的差異,所有模型在訓練過程中均逐漸逼近人類基準線,並透過提高動作損失權重進一步改善。持久性方面,研究者手動將遊戲內物件(Powercell)、角色與地圖元素(Vertical Jumppad)插入至合理但全新的位置,再由 WHAM 生成後續影像;在以五幀編輯影像作為條件時,所有元素類型的持久率...







