AI 模型作爲框架複製電子遊戲

 一直以來電子遊戲都是建立在遊戲引擎的框架底下製作,而來自谷歌及臺拉維夫大學的團隊打破了這一框架。

實驗團隊使用稱爲diffusion model的神經網絡作爲遊戲的主框架,構建出了Doom這一經典遊戲。Diffusion model最爲人所知的運用如midjourney之類的AI繪圖,即輸入文字,模型即可將文字轉換為圖像。而本片研究也是採用類似的架構,即用戶輸入指令(如前,後,左,右代替prompt文字),模型根據前一段時間的遊戲畫面及用戶輸入的指令,將下一個畫面以類似AI繪圖的方式繪製出來。

傳統的AI生成圖片的模型訓練為圖片搭配對應的文字敘述,而該研究則改爲一連串的遊戲畫面搭配輸入的指令,如輸入的指令為前進,這一連串的畫面就是往前走的畫面。而該模型也能記得環境互動,如遇到墻不能往前,或遇到怪物會發生的玩家狀態之改變。

雖然過去已經有其他團隊嘗試使用類似框架開發一些遊戲,但都局限於2d橫軸遊戲,遊戲場景互動也比較簡單,而本團隊則開發出3d遊戲。另外遊戲比較像是被複製出來的,如同我們看到某一款遊戲的影片,我們在腦海中想象自己游玩該遊戲,沒有新的場景及元素形成。目前還有一些挑戰,如遊戲的記憶只有幾秒,超過這個時間遊戲對於玩家的記錄就會丟失,該遊戲目前也只能在效能非常高的電腦上運作。不過隨著時間的推移,可以預見的是某一天的將來,我們能夠用AI複製出任何種類的遊戲,甚至是直接輸入文字prompt,生成一整個完整的遊戲。

圖一,實際遊戲運作畫面,所有畫面皆由AI模型生成。

圖二,Diffusion模型。左側為使用Agent先行游玩游戲並記錄畫面及輸入,並交到右側GAN模型作訓練。右側可以視爲diffusion ai繪圖的一種變體。



撰文:陳怡亨


原始論文:Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024).
https://arxiv.org/abs/2408.14837

留言