文章主题:AIGC, AI Generated Content, 生成式AI, 人工智能生成内容

666AI工具大全,助力做AI时代先行者!

v2-347ccdbc16c57ffbfb60982bb48eb4cc.jpg0
本文尝试围绕AIGC在游戏领域的应用这一话题,为读者提供“走马观花”式的阅读体验,分享行业见闻而非着重介绍晦涩技术概念、细节,抛砖引玉,启发思考,将针对以下四个主题进行分享:

一、AIGC在游戏领域的基础应用
提取作者了解到的AIGC 游戏基础应用,从游戏工业的不同侧面梳理AIGC带来的生产力革命、创新可能性
二、AIGC在游戏领域的上层引用
以具体案例简要探索AIGC在游戏领域的上层应用,如AI NPC、虚拟人、数字人社群,聚焦综合解决方案
三、AIGC热点话题
探讨AIGC在游戏领域的技术瓶颈、法律风险、伦理争议等,帮助读者补全相关视野
四、“全要素生成”——AIGC 游戏未来展望
从作者个人视角探讨AIGC引发游戏形态革命的可能性,畅想科幻电影中的情境何时照进现实

作者介绍:张昊阳,国民手游游戏技术策划、前AI赛道创业者,5年AI领域从业经验,7年游戏开发经验,AIGC 游戏探索和布道者。

v2-a161db1bac3349898ab5d8f60d3c1614_720w.jpg

AIGC,全称人工智能生成内容,是一种基于生成对抗网络(GAN)和大型预训练模型等先进人工智能技术的应用。这些技术能够通过对已有数据的深入挖掘和理解,找出潜在的规律,并据此生成相关内容。这种技术在现代社会中被广泛应用,尤其是在数字内容领域。除了AIGC之外,另一个与它相关的概念是合成式媒体。这是指利用人工智能技术生成的各种形式的信息,包括但不限于文字、图像和音频等。这些生成的内容可以用于替代或补充真实世界的信息,从而为用户提供更加丰富和多样化的体验。同时,知名市场研究公司Gartner也提出了一个类似的 concept,即Generative AI,也就是生成式AI。这个概念的核心是,通过人工智能技术从现有的数据中生成新的、与原有数据相似的数据。这种技术的出现,无疑将为数据分析和处理带来全新的视角和工具。然而,相较于量子位智库对AIGC的定义,Generative AI的概念范围可能稍显狭窄。尽管如此,它仍然是一个充满潜力和前景的概念,值得进一步的研究和探索。

AIGC(AI赋能创意生成)作为一种创新型的AI技术,具备高效、低成本和高度自由的生成能力,广泛应用于各类内容制作领域。它不仅是继PGC(专业生成内容)、UGC(用户生成内容)之后的全新创作形式,更具有巨大的增长潜力,能够创造出额外的价值。例如,在游戏《骑马与砍杀》中,通过引入ChatGPT的API,实现了更加真实的人机对话效果;在游戏《AI Dungeon 2D》中,玩家能够同时体验到AI生成的故事文本和相应的图像;在CG软件Wonder Studio中,用户只需上传一段视频,就能通过AI生成相应的CG画面,甚至可以将生成的动作导入游戏引擎进行二次处理。在过去的几年里,AIGC赛道迎来了爆发式的增长,其在某些领域的表现已经超越了人类。

1709971828586.jpg

图:目前AI在部分领域表现已经达到人类标准 来源:Our World in Data,中泰证券研究所

在2022年,一些具有突破性的AIGC产品成功跨越了行业边界,如Midjourney、Stable Diffusion以及ChatGPT等。这股创新热潮催生了众多与AIGC相关的公司和职位,它们如同雨后春笋般涌现,对人才的需求也急剧增加。据脉脉数据显示,过去三年,AIGC领域的人才数量呈现持续上升的趋势。

1709971828920.jpg

图:AIGC相关公司Landscape 来源:2023 data, ML and AI landscape: ChatGPT, generative AI and more

1709971829173.jpg

图:AIGC行业相关岗位增长势猛 来源:脉脉高级人才智库

一、AIGC在游戏领域的基础应用

在接下来的内容中,我们将全面探讨AIGC在游戏领域中的基础应用,涵盖文本、图像、音频、视频、三维以及策略这六个方面。同时,我们也会将跨模态或多模态的内容融入到这些模态的介绍之中,为大家呈现出更为丰富的信息。从笔者的角度来看,跨模态/多模态的能力无疑将成为未来最具潜力和价值的发展方向。

1709971829377.jpg

在2022年,我们见证了两大学术成果的诞生,即文本与图像两大模态的突破。在这一年,诸如ChatGPT、MidJourney、Stable Diffusion等现象级产品的出现,不仅引发了全社会对相关领域研发的热情,同时也推动了实际投入的增加。在文本领域,自ChatGPT爆红之后,语言模型及产品的研发迎来了新的高潮。诸如Newbing、Claude、Meta LLaMA、斯坦福Alpaca、国内清华系公司的智谱科技研发的ChatGLM、复旦大学MOSS、百度文心一言以及阿里巴巴通义千问等众多优秀产品应运而生。

1709971829611.jpg

文本生成并不是只有大众熟知的GPT,也就是生成式预训练Transformer模型一种解决方案,此前谷歌的BERT(Bidirectional Encoder Representation from Transformers,什么是BERT?),LaMDA和它对应的产品Bard,以及其他的NLP技术已有多年积累,GPT则是迄今为止效果最好的一种解决方案,关于这一点IDEA张家兴博士有个圈内知名度较高的调侃——“ChatGPT爆火后,NLP技术不存在了”

笔者将文本生成在游戏中的应用分为通用文本、文案、代码、对话等四个子类。

文本生成

作为一篇专业的文章写作高手,我会将原文进行重新组织,使其表达更为丰富和具有深度。通用文本是一种涵盖了广泛应用领域的文本类型,它不仅包括游戏策划案的设计思路、细节以及游戏中使用的表格等具体内容,还包括游戏本地化的各类元素和数据分析输出的报表。这些文本类型共同构成了通用文本的重要组成部分,它们在不同场景下发挥着重要作用,既便于应用,又具有广泛的普适性。

1709971829810.jpg

图:ChatGPT输出卡牌游戏策划案

1709971829979.jpg

图:ChatGPT输出战争类游戏伤害公式

1709971830149.jpg

图:ChatGPT输出角色属性值表格

文案方面,游戏里的故事文本、对话数据(这里指预设好的对话,而不是交互式生成的对话文本)等均可以通过NovelAI、NotionAI、彩云小梦等工具生成,乃至产生新玩法,如AI Dungeon,它可以动态生成故事,且能够根据玩家的输入做出反应,生成不可预测的动态游戏体验。最新的GPT技术撰写的文案在某些情况下能超越人类水平,尤其是在一些限定的规则下,如只使用某些特定的字母、Emoji,或是编写藏头诗等等。

1709971830288.jpg

图:ChatGPT补全故事

1709971830430.jpg

图:ChatGPT使用Emoji表达指定的内容

1709971830613.jpg

图:ChatGPT写诗称赞嘉然

代码方面,在游戏制作过程中可以用Copilot、Cursor这类IDE工具或者插件辅助游戏开发,代码审查则有Metabob提供能力支持,也可以通过将GPT接入游戏引擎,接管关卡内容创建逻辑(跨模态),乃至游戏运行时生成游戏代码和游戏内容。笔者也测试过使用ChatGPT生成Unreal Engine引擎里的简单交互逻辑,及NewBing生成和平精英绿洲启元的代码等,认为具备一定的可行性和想象空间。

1709971830768.jpg

图:Cursor.So软件,它可以帮助你生成和调试代码

1709971830913.jpg

图:Mapping AI in the software development life cycle – 软件开发领域的AI工具Landscape

1709971831309.jpg0

交互式文本生成(对话生成)方面,早年即有相关应用,如微软小冰,但受限于以往NLP技术的生成,没有大量应用在游戏中用作角色扮演,GPT的出现改变了这一局面,如前文介绍到的《骑马与砍杀》ChatGPT NPC,Glow软件里的虚拟人沈思前、日本小程序赛博佛祖,都是让GPT驱动的AI扮演一个特定角色。新的玩法也在产生:如侦探游戏《ドキドキAI尋問ゲーム》让玩家扮演侦探审问犯人,审问的“犯人”接驳ChatGPT,玩家需要在7次对话内让AI犯人说出“我是犯人”来通关游戏,思路让人眼前一亮。

1709971831486.jpg

图:《骑马与砍杀》ChatGPT NPC

v2-67b62c19fad3cda75d556a710e415691_b.jpg

图:侦探游戏《ドキドキAI尋問ゲーム》需要玩家在7次对话内让AI犯人说出“我是犯人”

图像生成

在图像生成领域,MidJourney、Stable Diffusion、DALL·E 2等工具已让大众耳熟能详且成为了这一领域的鼻祖,现如今则发展成了MidJourney和Stable Diffusion二分天下的局面:艺术家/设计师更偏爱MidJourney,因为它生成的内容质量足够高且相对易用,工程师/技术美术和大厂则更偏爱Stable Diffusion,因为它可以输入复杂的参数来进行精细化控制且代码开源。

v2-83120d18b13f579cae85f1d15a505d75_b.jpg

图:Midjourney AI vs Stable Diffusion – Which generate BETTER Images?

与Stable Diffusion相关的最著名开源项目便是由AUTOMATIC1111开发的Stable Diffusion web UI,几乎一半以上的Stable Diffusion使用者都在使用此工具或是为其开发新的开源能力,使其愈发强大。伴随着生态的发展,Dreambooth、LoRA、LoCon、LoHA等Diffusion Model微调方案相继出现,ControlNet则将用户对生成图像的控制力提升到了一个新的高度。基于Stable Diffusion的商业工具如NovelAI Image Generator、Leonardo.AI、Scenario.gg也开始出现,并应用在游戏原画、场景、图标设计等领域。值得一提的是,著名数字艺术工具公司Adobe也加入了战斗,推出了自己的AI生图工具Firefly。

v2-9099ec2cadcc8dbd838882acfcfebfe3_b.jpg

图:NovelAI Image Generator的推出将AI绘画的发展推向了一个新的高潮

v2-71543ebf2f6d4313216f821e5a4ba5bf_b.jpg

图:Leonardo.AI集成了Stable Diffusion的各种能力,简化了使用繁琐度

AI生成图像对游戏原画领域的提效和冲击无疑是巨大的,一个比较经典的案例是《猴子都能学会的AI角色设计》(2022年Q3),作者演示了如何使用AI绘画工具将一个大头涂鸦一步步转化成完整的角色设定。事实上,AI绘画被大量一线游戏大厂的许多项目组普遍采用来提升沟通和创作效率已经是一件众所周知的事。

v2-6098c9a17600b84b51eed8083404dffb_b.jpg
v2-c34b74a0b08898c4ce6720d60526e76b_b.jpg
v2-fe44acba43c81515312dc1b1bf365d62_b.jpg
v2-f0de2f97df3831b40b747039e2b463a8_b.jpg
v2-3bad7b04bc354c2e74f58058d10ce75f_b.jpg

组图:猴子都能学会的AI角色设计

不单单是原画领域,在游戏贴图生成与处理、游戏实时画面增强/风格化、浮雕/卡雕效果乃至全景图到3D场景的生成方面,AIGC的运用也已屡见不鲜。如Text2Text使用Diffusion算法提供了从白模生成贴图的解决方案、Poly可以用自然语言prompt生成PBR材质球,Nvidia的Real-Time Neural Appearance模型甚至可以实时生成效果极惊艳的电影级别的写实外观材质。在游戏《Tales of Syn》中,作者用了Stable Diffusion的深度图生成能力,结合游戏引擎的曲面细分能力制作了3D卡雕效果、笔者也曾尝试使用ControlNet与UE5引擎结合,对UE5渲染的图像进行实时风格化处理。而AI的超强**参数化生成**能力,让一些此前不可能实现的玩法变得可能,如使用LoRA模型固定风格和角色的方法,在游戏运行时提供批量生成指定形象的能力,实现“千人千女”或是“千人千宠”。

v2-c8287ad6f24c31eba58a60ec2355829e_b.jpg

图:Text2Tex提供了从白模生成贴图的解决方案

v2-06b002d74363c0d95e09300a4adcb762_b.jpg

图:Poly可以用自然语言prompt生成PBR材质

v2-31d1b2c57f4cc938228fedd0899160a3_b.jpg

图:nVidia提出可达电影级别的,实时神经外观生成模型,支持各向异性采样和LoD渲染,shader速度相比之前快一个级别,效果极惊艳

1709971831578.jpg

图:Tales of Syn使用Stable Diffusion的能力制作卡雕效果

v2-d0836df7b369621ead41d952e9fb8b58_b.jpg

图:作者本人制作的ControlNet UE5实时风格化渲染案例

除此以外,交互式生成也是一个值得游戏从业者关注的生成方式,NVIDIA推出的Canvas应用可以让使用者通过涂鸦的方式实时生成指定风格和内容的图像,在一款名叫Unstable Journey的开源应用中也提供了类似的交互形式,这不禁让人联想,是否可以用AIGC的方式制作一款升级版的“你画我猜”。

v2-01c0eb27842ff14a8116cb0b67a38e38_b.jpg

图: Nvidia Canvas应用程序

v2-322dcb1ccd42095d7170488bd8dc2802_b.jpg

图:Unstable Journey应用

由此我们可以推断,AI生图能力在未来将更多地集成在游戏程序中,成为玩法不可分割的一部分。而在图像处理方面,AI也表现了超乎想象的惊人实力,无论是超分辨率还是语义分割,相关领域已发展多年,在近期又迎来了新的突破,在最新的一篇论文《Segment Anything》中,Meta发布的语义分割模型SAM让不少人惊呼“CV(计算机视觉)不存在了!”无独有偶,前不久Meta更是推出了其多模态模型《ImageBind》,这是一个能够同时绑定六种模态数据的AI模型,使得机器能够更好地分析多种不同形式的信息。类似的应用也被运用在了游戏生产管线中,例如UnrealCV就提供了一种在Unreal游戏引擎中识别3D物体并生成深度、法线等信息的解决方案。

v2-e8eabc86d3c2ac648d23e119c66deba2_b.jpg

图:Meta发布的语义分割模型Segement Anything(SAM)

v2-943c7db8be8cfdb4ad75e5c2ee4ccb78_b.png

图:UnrealCV提供游戏引擎内的计算机视觉能力

音频生成

v2-6a5c4bd9542e9cfb94ba32125462eb39_b.jpg

音频和视频内容生成也是游戏内容生成中不可忽视的一部分。从AI作曲到声音克隆,AI生成的音频已然出现在许多游戏作品和游戏二创内容中。早在2016年,一款名为AIVA的AI作曲工具就曾掀起过一波浪潮,此后的AI作曲工具层出不穷,如Mubert、Jukebox、Melodrive等,虽然AI作曲的质量与人类艺术家的作品仍有一定差距,但在一些低成本、小制作的游戏中,这类“罐头音乐”内容能够以低成本、高效率的优势取代人工作曲,完成配乐需求。

1709971831689.jpg0
1709971831770.jpg0

声音克隆(又称音色迁移)则是近年非常流行的一种语音合成技术。相较于传统语音合成中生硬的机械音,声音克隆一经推出便以其媲美真人的音色全面占领市场。在声音克隆中,主要有两类突出的应用:歌声合成、人声合成。歌声合成技术目前已经趋于成熟,下面的案例展示了在up主的“调教”下,将周杰伦的音色迁移到日本歌手Aimer的名曲《カタオモイ(单相思)》中,不但还原了天王巨星的音色,连吐词不清的慵懒感也一并迁移,十分震撼。

1709971831961.jpg0

人声合成方面,技术尚不如歌声合成成熟但仍值得期待。如在下面的视频中,up主展示一个了用Vits的开源解决方案,将原神派蒙的语音作为语料进行训练合成的“AI派蒙”,不难感受到,尽管真人配音在情绪表达方面完胜AI合成音,AI依然能把语气、抑扬顿挫等人类特点学习并复现出来,在一些独立游戏中,这类合成音或许能在让玩家接纳的前提下节约成本、提高配音效率。在一些游戏二创内容中,此类应用也已屡见不鲜,遑论铺天盖地般使用AI合成音配音的各类短视频。

1709971832165.jpg0
1709971832327.jpg0

视频生成

在图像生成技术蓬勃发展并成功破圈后,视频生成的能力也接踵而来,引发诸多关注。视频生成有几种不同的形态,如从文本生成、从给定的图像生成、从视频生成等,虚拟人生成由于其独特的应用场景和技术路线,笔者将单独拆分出一类进行介绍。

从文生成的经典案例和应用有Runway Gen-2和NVIDIA VideoLDM,它们均可以用给定的一串描述文本生成一系列画面并组成序列帧。

1709971832463.jpg0

从图生成的案例比较出名的则是今年早些时候由著名影视制作团队Corridor Crew团队发布的视频《石头剪刀布(VFX Reveal Before

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *