随着 AI 技术的快速发展,越来越多的领域开始探索如何利用 AI 来提升效率和创造力。

近日,谷歌和以色列特拉维夫大学的研究人员联合推出了一款名为 GameNGen 的 AI 模型,这一最新技术进展能够实时交互式模拟 1993 年经典第一人称射击游戏《毁灭战士》(Doom)。

日前,相关论文以《扩散模型是实时游戏引擎》(Diffusion Models Are Real-Time Game Engines)为题在预印本网站 arXiv 上发表 [1],该模型已在 GitHub 上开源。

论文作者包括:丹尼·瓦列夫斯基(Dani Valevski)、亚尼夫·利维坦(Yaniv Leviathan)、摩阿布·阿拉尔(Moab Arar)和肖米·弗鲁赫特(Shomi Fruchter)。

1725148906434.jpg

图丨相关论文(来源:arXiv)

GameNGen 是一个由神经网络驱动的系统,其核心在于它能够在没有传统游戏引擎的情况下,通过 AI 技术实时生成游戏画面。

传统的游戏引擎往往基于手工编写的代码,进行游戏状态管理并渲染视觉效果,这一过程不仅耗时且成本高昂。

而 GameNGen 通过 AI 生成扩散模型,完全摆脱了这种传统方法,自动模拟整个游戏环境。

该系统利用 AI 图像生成模型 Stable Diffusion,最初用于生成静态图像。而 GameNGen 则进一步扩展了这一技术,将其应用于实时互动的游戏模拟中。

在 GameNGen 的用例中,Stable Diffusion 模型被修改为能够预测游戏画面中的下一个状态。

这种预测不是基于固定的规则或预设的游戏逻辑,而是通过 AI 对之前状态的分析和推测来实现的。

也就是说,GameNGen 能够动态地生成每一帧的游戏画面,而并非基于预先定义的场景或动作序列。

GameNGen 使用的另一项关键技术是神经网络,尤其是与图像生成相关的神经网络。

首先,研究人员训练了一个强化学习代理,让它通过玩游戏来生成大量的游戏画面数据。

随后,这些数据被用于训练 Stable Diffusion 模型,使其能够在给定前一帧的情况下,预测并生成下一帧的游戏画面。

这个过程包括了两个主要阶段:

第一阶段是强化学习代理的训练,目的是通过自动游戏生成大量的训练数据。

第二阶段是将这些数据输入到 Stable Diffusion 模型中,以便模型能够学习如何从一帧游戏画面生成下一帧。

这种结合了强化学习和扩散模型的技术,使得 GameNGen 不仅能够生成单帧的高质量图像,还能够保证这些图像在时间维度上的连贯性。

在传统的游戏开发中,游戏画面的生成是通过预先设定的规则和算法来实现的。这种方法虽然可以产生高质量的图像,但也需要大量的计算资源和时间。

而 GameNGen 则通过神经渲染的方式,利用神经网络实时生成游戏画面。

这种渲染方式与传统的图形渲染方法有很大的不同,它不依赖于固定的规则,而是通过 AI 对当前游戏状态的“想象”来生成图像。

GameNGen 的诞生和后续进展很可能引发游戏行业的变革。

传统的游戏开发往往需要大量的人力和时间来编写代码、设计关卡和创建游戏世界。而 AI 驱动的引擎,如 GameNGen,能够自动生成这些内容,显著减少了开发时间和成本。

这一技术突破可能使游戏创作更加方便,小型工作室甚至个人创作者也可以制作出复杂、互动性强的游戏。

更重要的是,AI 驱动的游戏引擎不仅能够生成静态的游戏场景,还能够根据玩家的实时操作动态调整游戏内容。

这意味着,未来的游戏可能不再是预先设计好的固定内容,而是能够根据玩家的行为实时演变。

未来,或许这种动态生成的游戏世界将打破传统游戏设计的桎梏,为玩家带来更加沉浸式和个性化的游戏体验。

尽管 GameNGen 目前主要在游戏领域应用,但其潜力远不止于此。实时模拟适用于许多行业,特别是在虚拟现实(VR,Virtual Reality)、增强现实(AR,Augmented Reality)、自动驾驶汽车和智能城市等领域。

在 VR 和 AR 中,AI 驱动的引擎可以创建完全沉浸式的互动世界,并实时响应用户的输入。

尽管 GameNGen 展现了 AI 在游戏模拟中的巨大潜力,但这一技术在当前阶段仍面临诸多挑战和限制。

首先,GameNGen 目前仅限于模拟一款相对简单的古老游戏,相比于现代游戏,其图形复杂度较低。

要将 GameNGen 的技术应用于更复杂的游戏或其他类型的模拟环境,需要克服大量技术难题。

其次,GameNGen 生成的游戏画面偶尔会出现图像故障,特别是在处理较复杂的游戏环境的情况。

这是由于 Stable Diffusion 模型的局限性,以及 AI 在生成连续帧时容易出现的累积误差所导致的。

随着时间的推移,这些小错误会逐渐积累,最终可能导致生成的虚拟世界变得不稳定或失真。

此外,GameNGen 只能访问短短三秒钟的游戏历史,这意味着当玩家重新访问先前经历的游戏关卡时,系统只能通过概率性猜测进行模拟,而无法基于真实的游戏状态进行准确再现。

这种局限性限制了 GameNGen 在更大规模和更复杂的游戏环境中应用。

尽管目前存在一些技术挑战,GameNGen 仍然为未来的游戏开发和其他应用场景开辟了广阔的前景。

随着 AI 技术的不断进步和计算成本的降低,未来有望实现更复杂的游戏和模拟环境。

与此同时,随着时间的推移,AI 驱动的游戏引擎或将不仅限于模拟简单的游戏场景,而是能够生成大规模、复杂且互动性强的虚拟世界。

参考资料:

1.https://arxiv.org/abs/2408.14837

https://arstechnica.com/information-technology/2024/08/new-ai-model-can-hallucinate-a-game-of-1993s-doom-in-real-time/

https://gamengen.github.io/

运营/排版:何晨龙

Leave a Reply

Your email address will not be published. Required fields are marked *