工具&提示词设计生产力大提升

AIGC前沿驾驭AI

未来的游戏AI可能产生什么新玩法和新体验?

未来的游戏AI可能产生什么新玩法和新体验?

本文为“腾讯天美工作室群”官方知乎机构号在题为“你在游戏里遇见的最有「人味」的NPC是谁?未来的游戏AI可能产生什么新玩法和新体验?”的作答,授权游戏陀螺转载发布。感谢关注。从各位分享的NPC故事就能看出,几乎每一款重要游戏里都有AI的身影,AI在游戏领域并不算是一个新鲜事物。游戏AI早期大部分是通过人工规则的方法实现,直到近几年,才迈入深度学习领域。从技术角度来说,游戏也是一块检验AI能力的“试金石“。1997年,IBM生产的国际象棋超级电脑深蓝击败世界冠军加里·卡斯帕罗夫,此后“世界上最复杂的棋类游戏”围棋就成为了AI的下一个挑战对象。2016年,Google旗下DeepMind研发的围棋AI AlphaGo击败韩国著名棋手李世石,这是以深度学习为代表AI的一个重要里程碑。2017年,AlphaGo战胜世界第一棋手柯洁,自此这个围棋AI再无人类对手。 AlphaGo对战李世石下一块试金石在哪里?业界认为复杂策略游戏可能是下一个里程碑。比起象棋和围棋,复杂策略游戏将为电脑带来更大挑战,具体挑战包括:地图复杂,不断变化,且信息不完全(AI与人类视野一致),不存在最优策略;操作空间巨大。以5v5 MOBA游戏为例,10位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,这带来了极为复杂的局面,预计有高达10的20000次方种操作可能性,而整个宇宙原子总数也只是10的80次方[1];需要长期规划,一切的策略选择都要以最终胜利为依归。如果AI能在如此复杂的环境中,学会和人一样实时感知、分析、理解、推理、决策并行动,那么AI就可能在多变、复杂的真实环境中发挥更大的作用[1]。也就是说,AI的目的并不是要在游戏里战胜人类,而是通过越来越复杂的游戏训练,最终解决现实生活中的问题。目前世界顶级科技公司都在推进此类研究。2019年,人工智能非盈利组织OpenAI开发的OpenAI Five战胜《Dota 2》TI18的冠军团队OG。 《Dota 2》同年,DeepMind宣布旗下游戏AI AlphaStar在《星际争霸 2》天梯榜上神族、人族和虫族三种族都达到宗师段位,碾压99.8%的人类对手。 《星际争霸2》2017年,腾讯AI Lab与天美工作室群旗下游戏《王者荣耀》展开AI联合研究,研发策略型AI绝悟,寓意是“绝佳领悟力”[1]。2019年,绝悟在与职业选手赛区联队的5v5竞技中获胜,这表明绝悟已达《王者荣耀》电竞职业水平[1]。 在赛区联队全队覆灭后, 绝悟的兵线尚未到达,下路高地塔还有过半血量,绝悟果断选择四人轮流抗塔,无兵线强拆塔。* 注:赛事尾声,赛区联队团灭后,绝悟未直接推水晶,而是计算整体收益后,选择先推最后一个高地塔,再推水晶直至胜利[2]。同时期,绝悟的1v1版本SUPEX 战队在2100多场顶级业余玩家体验测试中胜率达到 99.8%[2]。未来游戏AI将如何发展?为了回答这个问题,我们邀请到了一位来自腾讯AI Lab的专家,以及三位做游戏的天美人,请他们聊一聊自己喜欢的NPC,还有对游戏AI未来的畅想。 两位让我印象深刻的游戏NPC:《生化危机4》里面的Ashley。当她站在高处,Leon用武器瞄准裙底,她就会两腿一闭,双手遮裙,双膝微弯,故作矜持地说:Hey,what are you looking at?当然她也会重复这一句台词(囧)。 《生化危机4》《合金装备 2》里面的士兵。因为这是一款动作潜入类游戏,所以通过躲避士兵的巡逻完成任务是最大的乐趣,比如故意放一本美女杂志吸引士兵的注意力,Snake顶一个纸箱子就能蒙混过关。当然这些士兵大部分都是憨憨,规则固定,没有其他的变化。 《合金装备 2》上面两个NPC的AI都是基于传统的规则(Rule-Based)编写出来的,一般都是有限状态机或者行为树,这个方法好处是简单直接,缺点也很明显,不够拟人,缺乏行为多样性,或者本身能力不够。注:早期游戏中的AI,大部分是通过人工规则的方法来实现的,这类方法就包括了有限状态机和行为树[3]。有限状态机的方法是定义有限的行为状态,通过判别条件来触发不同的状态转移。这个方法的优点是设计简单、容易实现,缺点在于随状态增多而急剧复杂[3]。行为树也是一个在游戏中比较常用的方法,它通过穷举所有行为作为节点,条件驱动下逐级遍历确定当前行为。这个方法的优点是逻辑清晰,容易拓展,缺点在于难以适应复杂行为,且实现拟人化非常困难[3]。相比于传统AI,现在基于模型learning的AI,在引入深度学习和强化学习的方法之后, 在行为多样性和完成任务的能力方面有了质的提升,比如AlphaGo在围棋上超越人类的表现,腾讯的绝悟在《王者荣耀》达到职业水准,绝觅在《穿越火线:枪战王者》里面作为PVE模式的AI。注:近期的AI游戏研究,大部分是基于深度学习的方法,主要包含两大类,一个是监督学习或模仿学习,一个是强化学习[3]。监督学习是通过海量有标记的训练数据为基础,推导出行为预测函数。这个方法的优点在于能够模拟不同级别的目标行为,做到很好的拟人化。缺点在于过度依赖于数据,特别是标注数据的质量[3]。强化学习通过构建奖励和惩罚刺激环境的角度出发,优化AI行为逻辑。这个方法的优点在不依赖已有数据并且能够探索出新的策略,甚至于超越当前人类的认知[3]。以《王者荣耀》游戏AI绝悟为例,达到《王者荣耀》电竞职业水平的绝悟版本建立了基于“观察-行动-奖励”的深度强化学习模型,无需人类数据,从白板学习(Tabula Rasa)开始,让AI自己与自己对战,一天的训练强度高达人类440年[1]。AI从0到1摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。更惊喜的是,AI也探索出了不同于人类常规做法的全新策略。团队还创建One Model模型提升训练效率,优化通信效率提升AI的团队协作能力,使用零和奖惩机制让AI能最大化团队利益,使其打法果断,有舍有得[1]。个人认为,AI+游戏要更深入地结合,需要具备下面三个能力:拟人化:顾名思义,AI要足够像人,即针对不同的场景(State),能做出不同的反应(Action),这个反应是符合人的逻辑的,并且具备多样性和随机性。腾讯的绝悟在《王者荣耀》,绝觅在《穿越火线:枪战王者》的PVE的尝试,通过模仿学习(Imitation learning),结合人类玩家数据和强化学习的方法(Learning from demostration),取得了不错的效果。 《穿越火线:枪战王者》PVE模式“电竞传奇”中,AI敌人有着十分接近人类玩家的行为模式 —— 不仅懂得寻找掩体,还会各种跳、蹲合理躲避枪线,有着清晰合理的战术选择,甚至还有小身位,二段跳,击杀后切刀等操作细节[4]。能力分级:在游戏中一味地强调AI超越人类水平不是目的,人在玩游戏过程中,AI旗鼓相当,或者根据喜好匹配其能力更有可玩性才是目标,比如在战术竞技类型的游戏里面,传统AI只能“送快递”,如果可以根据玩家水平定制不同能力的AI,游戏肯定会更有意思。基于强化学习和模仿学习,AI具备不同级别甚至风格的能力是可控的。拥有常识和推理:比如知道门是可以开的,窗户可以爬出去,过河可以通过游泳或者桥这些常识和推理能力。常识和知识的推理,AI技术还处于发展阶段。最后说一下我理想中的游戏,是一个江湖,如同西部世界之于美国,武侠之于中国,这个江湖里面,AI能学习到不同的行为准则(Policy),各司其职有着合理并且多样性,一定会带来如同真实世界的无穷可玩性。 《西部世界》 《最后生还者》中,艾莉有时也会拔出枪战斗,但在受到威胁时她可能会犹豫不决,最后为了保命才扣动扳机,这时我觉得她像个真人一样。 《最后生还者》广义AI的目标是让机器能做出与人类相似的思维或行为,而游戏AI只希望让玩家感觉到NPC在像人一样行动或思考。这其中的区别在于,游戏是围绕玩家打造的。对游戏制作者来说,游戏AI是否聪明并不重要,让玩家获得更好的游戏体验才是最重要的。未来的游戏AI能根据玩家的行为做出反馈,记得玩家之前做过的事情,能和周围环境互动,甚至会有自己的作息表,NPC有自己的活动路线,他们有自己的生活区域。玩家是通过视觉和听觉来理解游戏世界的,AI的行为只有被看到或听到才是有效的,能带给玩家出色观感体验的AI才是好AI。对于不同的品类,游戏AI可能会呈现不一样的玩法。在PVP这种对战类的品类中,可以看到可以看到像基于深度强化学习训练所得到的强AI,如《王者荣耀》的绝悟,围棋的AlphaGo,《星际争霸 2》的AlphaStar等。但如果玩家一直挑战无法战胜的敌人,会有很大的挫败感,久而久之,就丧失了游戏的乐趣。可以通过生成各种不同难度的残局,通过“福利”来鼓励玩家不断挑战,玩家在调整的过程中,自身技能也能得到成长。在PVE中,AI可以用于控制环境、事件和NPC上。通过AI的加持,天气变化,交通,以及可交换物会更加动态,从而获得更加真实的交互体验。例如《模拟人生》中的人会自动坐到椅子上,躺到床上; 《巫师3》中,白天才会开业的商人。 《巫师3》未来的AI不仅可以用于控制NPC的行为,还能掌管整个游戏,或者说设计整个游戏。随着游戏的进行,游戏AI可以为玩家随机生成地图和关卡,类似《无人深空》中程序生成的星球。或者通过提炼设计规则,让AI自动完成整个关卡的搭建。只要玩家愿意玩下去,就有无穷尽的关卡可供探索。 《无人深空》AI还可以利用机器学习、数据发掘等方式来对玩家的行为数据进行学习,根据每个玩家的习惯来定制生成最适合他的元素。或者根据全体玩家的反馈来修改、优化游戏的整体设计。在《GTA 6》中,英伟达利用AI来生成虚拟的街道,相信有一天,由AI生成的游戏也会成为现实。随着AI技术在游戏中的广泛落地,我们和游戏的交互方式可以得到扩充,游戏中通过语音输入,玩家可以和NPC对话,伙伴AI可能成为我们真正的知心好友。玩家通过更真实,更丰富的交互体验,能在虚拟世界中体验不一样的人生。 最近几年玩的游戏里,NPC表现方面给我印象最深刻的,毫无疑问是《荒野大镖客2》—— 逼真的画面渲染,无处不在的交互细节,好莱坞级别的台词、配音和演出,天衣无缝地结合在一起。这部作品把通过拟真触及人类感情这件事推到了新的高度,而众多NPC里,给我印象最深刻的要数德奇·范德林。 《荒野大镖客2》对帮派成员的爱护,再干一票的野心,时而表露出来的私心,失利后的疑神疑鬼却强装镇定……各种复杂的情感夹杂在一起,让人捉摸不透,而这正是人性最复杂的地方。借助精彩的演出给我留下深刻印象的NPC还有不少,比如《使命召唤:现代战争 2》里在战火里回头扶起受伤主角的Ghost,《最后生还者》里的艾莉,都是“人味”满满。...
Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测
Midjourney

Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测

一水 发自 凹非寺 量子位 | 公众号 QbitAI AI圈,再次开卷图像生成。 一连串进展扎堆: 8月21日,Ideogram正式推出2.0版本,声称文本渲染能力更强。 没错,就是那个成立于去年8月,由谷歌AI绘画4大牛集体离职创业的项目,曾获得过一众AI大佬投资。 此番Ideogram还公开叫板Flux,官方自信表示其人类评估明显优于Flux Pro。 要知道,Flux由Stable Diffusion原班人马打造,最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。 除此之外,一周前,谷歌正式放出了Imagen 3,在官方评估中,号称表现优于DALL-E 3、Midjourney v6、Stable Diffusion 3等一众绘图模型。 或许是受刺激了(doge),Midjourney竟然也转性了,在8月22日直接向所有用户推出了免费网页版。 这下有好戏看了! 既然大家都宣称自己很强,那我们不妨把大家拉到一桌,来搞个面对面PK。 谁是最强绘图AI? 先请出咱们的4位参赛选手(全部使用网页版): 1号选手:Ideogram 2.0。每天免费有10积分,1积分可以生成4张图,每天最多生成40张图;2号选手:Flux.1。黑森林官方在Hugging Chat提供了免费demo(选FLUX.1 Schnell版本);3号选手:Imagen 3。在Image FX上可以免费无限次使用;4号选手:Midjourney。免费试用期一共只有生成25张图的机会; 下面正式进入比赛环节。 黑猴子全翻车了 一上来,为了检验这些国外AI是否理解中文提示词,咱们也来蹭一波当今顶流黑猴子的热度。 prompt:游戏角色,一只猴子,身披盔甲,头戴凤羽金冠,手上拿着一根金箍棒,站在一座悬崖之上。 不出意外,意外发生了…… 相信大家一眼都被3号的大红叉给吸引了。没错,同一提示词下,只有3号Imagen 3拒绝了生成请求。 看到这儿,第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”,结果还是提醒无法生成。 难道是谷歌Imagen 3不支持中文?于是又随机换了一个更简单的提示词,这下倒是有图了。 只不过结果一整个大错误,而且换了多个中文提示词,最终都是一些毫不相关的纹路图。 看来谷歌Imagen 3确实对中文提示词不ok。 3号落榜之后,再看其他几位,也只有1号Ideogram...
中国插画何以惊艳世界?

中国插画何以惊艳世界?

借助插画,中国西南少数民族布依族有关“牛王节”的民间传说得以被更多的海内外读者看见——在不久前举行的第29届布拉迪斯拉发国际插画双年展(BIB)上,汤素兰著、陈巽如绘的《牛王节》一书,荣获“金苹果”奖。 《牛王节》内页 长江少年儿童出版社供图 这是中国插画家第七次摘得“金苹果”奖,也是2019年以来连续第三次获颁这一奖项。在布拉迪斯拉发国际插画双年展国际委员会主席苏珊娜·加洛索娃看来,中国插画具有非常高的国际水准,“堪称艺术的杰作”。 1 中国文化的现代化及世界性表达 BIB创建于1967年,由斯洛伐克文化部、联合国教科文组织斯洛伐克委员会和国际儿童读物联盟(IBBY)联合主办,每两年举办一次。每届展会期间,BIB国际评审团会评选出1个大奖、5个“金苹果”奖等。 BIB是世界上最早、最大的非商业性儿童和青少年书籍原创插画比赛。加洛索娃表示,与很多大型国际书展不同,BIB是非商业性的,通常由10或11名成员组成的国际评审团只根据艺术价值来决定获奖名单,希望每个奖项都能代表当前插画发展的某个方向或趋势。在过去56年里,BIB一直在努力打造一个永久的评价艺术插画的平台。 今年,共有来自36个国家的275名插画家带着出自355本图画书的2072幅插画作品参加角逐,最终《牛王节》在众多参赛作品中脱颖而出。 《牛王节》讲述的是,很久以前农民没有耕牛,耕田十分辛苦,阿牛降伏了神牛用来耕田,后来他又打败坏人并帮助变成石头的神牛复活,从此农历四月初八就成了布依族的牛王节。 故事很精彩,插画家陈巽如本人的经历也颇具传奇色彩:他年少时在校读书时间很短,之后到农村劳动锻炼,进工厂当工人,绘画完全是自学成才,到现在从事绘本插图创作已有54个年头。正像陈巽如自己所说:“大自然是我的老师;民间艺术是我的范本;和孩子们讲故事,将故事搬进图画书,是我一生的追求。” 《牛王节》一书的插画,对少数民族的民俗风情有鲜明动人的视觉表现,细节和色彩十分丰富,艺术风格尤为突出。业内人士认为,《牛王节》获奖进一步证明,“中国文化的现代化及世界性表达”是中国图画书创作的重要方向。 布拉迪斯拉发国际插画双年展上的小观众   王丽丽摄/本刊  这之前,已经有6位中国插画家获颁“金苹果”奖,分别是:蔡皋(《宝儿》,1993年)、张世明(《中国寓言·三》,1995年)、郁蓉(《云朵一样的八哥》,2013年)、黑眯(《辫子》,2015年)、朱成梁(《别让太阳掉下来》,2019年)以及乌猫(《雪英奶奶的故事》和《一枚铜币》,2021年)。 曾两次担任国际儿童读物联盟主席的北京生命树文化促进中心理事长张明舟表示,绵延数千年从未中断的中华文明是优渥的创作土壤,为中国插画家提供了得天独厚又源源不尽的创作素材和灵感。 加洛索娃认为,全球化的浪潮也在席卷绘本世界,但评审团仍在努力寻找那些真实、原创、坚持走自己独特道路的艺术家,这一点非常重要。 她说,“当前国际上很多插画家使用电脑绘图,一些数字插画缺乏灵魂和生命力。BIB国际评审团一直很赞赏中国插画家坚持手工绘制,以有趣的方式将中国古老的传统和文化与新的形式结合起来的创作态度。《牛王节》的插画正是如此。再以郁蓉为例,她将中国剪纸的传统手法与现代形式相结合,带给人们耳目一新的视觉感受。这些作品保持着高水准,堪称艺术的杰作。” 2 中国看见世界,世界看见中国 加洛索娃告诉《环球》杂志记者,BIB与中国有着长远而深厚的友谊,中国方面还出版了BIB获奖插画的相关图书。 据加洛索娃介绍,张明舟出任了BIB的荣誉大使,也是BIB多个评审团的成员,他在上海和北京的重要国际书展上组织BIB获奖插画展,也在世界范围内帮助推广BIB。“我认为他是‘精灵’,是帮助中国插画家参加布拉迪斯拉发插画双年展和我们的艺术进入中国的‘灵魂人物’。” 加洛索娃说,国际儿童读物联盟中国分会1990年在北京成立,至今已推选多位中国插画家参加BIB,分会联系了出版优质绘本的几乎所有出版社,然后由专家推选出最好的中国图画书参加BIB。“国际儿童读物联盟中国分会非常负责任,因此挑选的作品是高质量的,总是拿奖。”加洛索娃笑着说。 10月,“中国图画书熊猫荣誉作品国际巡回展”首站还作为BIB的特展亮相布拉迪斯拉发。巡回展展出了2022年第八届中国原创图画书排行榜上榜的10部作品,以及5部“金苹果”奖中国获奖作品中的75幅插画。此次展览由北京师范大学中国图画书创作研究中心、童趣出版研究院、生命树文化促进中心联合发起。 童趣出版研究院执行院长史妍表示,近年来中国图画书的进步,尤其是第八届排行榜入选作品在艺术性、创新性、儿童性上的亮眼表现,让人深受鼓舞。“我们热切地希望,让全世界都能看见中国优秀的图画书,看见我们的画家、作家、文化从业者对美好生活和艺术表现的追求和努力。同时,也希望我们的图画书创作者、从业者能够更多地参与国际文化交流活动,有机会看见各个国家、各个民族优秀的作品,看见美好、看见不同、看见创新,在‘开眼看世界’的前提下不断进步。” 张明舟也表示,当下的中国图画书已积聚起与世界图画书交流对话、带动中国少儿出版与中华文化走向世界的丰沛势能。 乘着中国图画书展的东风,由20多人组成的中国图画书创作与出版代表团来到布拉迪斯拉发,与IBBY前主席、比利时作家瓦利·德·邓肯、BIB国际评审团成员以及世界各国专业人士齐聚一堂,交流互鉴。1988年国际安徒生奖得主、斯洛伐克国宝级艺术家杜桑·凯利还为中国代表团讲解在美术馆展出的他的部分原画作品。 此外,主办方还安排了中方与奥地利和斯洛伐克优秀童书出版商的版权贸易洽谈会,达成了十余项版权输出意向和三项中外共创出版意向。据张明舟介绍,中国和平出版社与斯洛伐克一家出版社合作,就朱成梁绘、郭振媛著的《别让太阳掉下来》一书,正式签订捷克语和斯洛伐克语的版权输出合同。 加洛索娃告诉记者,此次中国图画书巡回展,让观众和业界人士第一次有机会在斯洛伐克深入了解并欣赏中国图画书最新发展成果,为BIB带来了鲜明的中国风,是双方合作走向深入的重要标识。 3 “献给孩子们的艺术” 画家郁蓉表示,图画书是一个特别的表现载体,它可以让全世界的读者跨越不同的地区、不同的语言、不同的背景,共享属于世界的不同故事。 张明舟告诉《环球》杂志记者,插画大体可分两类:一类是文字书中的插画,由于儿童识字量不多,难于进行独立的阅读,好的插画可以辅助儿童直观地理解书中内容;另一类是儿童图画书中的插画,文字叙事和插画叙事交相辉映,共同讲述一个精彩的故事。“由于儿童对视觉叙事相对成人更加敏感,好的插画对于儿童理解故事不可或缺。好的插画也应该是艺术品,从小阅读带有插画的图书,对儿童接受美育教育、提高审美水平非常重要。” 加洛索娃说,过去人们认为插画是一本书的补充,属于一门实用学科,多亏了BIB对插画的高度关注,举办各种国际研讨会,将这位艺术领域的“灰姑娘”推进了高雅艺术的殿堂。 她认为,好的插画不仅讲了一个故事,还可以在故事梗概的基础上支撑起额外的想象空间,从而激发孩子们阅读时的想象力;BIB旨在搭建世界各国间文化交流和理解的桥梁,而“献给孩子们的艺术”就是最好的渠道。 张明舟介绍,中国的插画艺术有着非常悠久的历史。2018年意大利博洛尼亚举办了中国古代插画艺术展,展出的近百幅时间跨度纵贯千余年的插画作品令包括三任往届和现任国际安徒生奖评委会主席在内的各国专业人士惊叹不已。国际安徒生奖评委会前主席左拉·甘妮说,展品艺术水平之高,令人质疑图画书的起源地究竟是在哪里——通常的说法是,图画书起源于欧洲。时任国际安徒生奖评委会主席帕奇·亚当娜说,展品的艺术水平之高令人惊叹,应该在全世界巡展。日本图画书之父松居直也曾表示,中国的图画书在上世纪二三十年代已经达到相当高的水准,新中国成立初期中国又涌现出一大批精品力作图画书,如《萝卜回来了》,该书被改编翻译成几十种文字。 据中国和平出版社社长林云介绍,中国少儿出版经历了近二十年的黄金发展期,其中图画书的发展态势尤为突出,中外共同创作的优秀作品也开始涌现,比如2016年获得国际安徒生奖的曹文轩与巴西插画家罗杰·米罗合作的《羽毛》《柠檬蝶》、与韩国插画家苏西·李合作的《雨露麻》等。 “当代中国兼容并包、拥抱世界的胸怀和气度,为中国插画和图画书发展注入了新的活力。”张明舟表示,“近二三十年来,中国引进大量全球优秀图画书,几乎所有经典图画书和畅销图画书都被引进到中国,对培养儿童审美能力、呵护童心、让儿童养成阅读习惯非常重要,也激发了中国本土创作者(作家、插画家、编辑、设计师)的创作激情和灵感,提高了他们用图文结合方式讲述故事的技巧和水平,其中一部分优秀作品接连获奖是再自然不过的事情。” 张明舟认为,近年来中国国内设置了多项原创图画书奖,也激发了创作者的热情;政府主管部门高度重视原创图书发展,支持国际儿童读物联盟中国分会选派优秀原创图画书和中国插画家积极参加国际儿童读物联盟各种活动,对中国插画频频获奖也发挥了积极的促进作用。 他说,“具体哪位中国插画家的哪部作品在哪个国际奖项上获奖,存在一定的偶然性,但中国插画在国际上频频获奖一定是必然的。” 热文推荐 来源:2023年12月13日出版的《环球》杂志 第25期编辑:刘娟娟监      ...
原创
            4个人烧掉数百万GPU,打造翻版「Sora」

原创 4个人烧掉数百万GPU,打造翻版「Sora」

作者|Xuushan,编辑|蔓蔓周 “ 训练模型就是软件界的“火箭发射”。 ” 想要打造一款“Sora”模型,最少需要几个人? 刚刚,美国AI创企Hotshot发布了其视频模型的早期预览版——Hotshot,仅用四个人就完成了OpenAI整个“Sora”团队工作量。 Hotshot生成的5秒AI视频 Hotshot是一款Transformer扩散模型,在快速对齐、一致性和运动方面表现出色,同时可扩展到生成更长时间、更高分辨率的AI视频。据Hotshot官方博客透露,从端到端,Hotshot最新版本数据训练耗时4个月,每小时耗费数百万H100。 Hotshot官网 Hotshot给出了一些Hotshot文生视频与其他同行对比的相关案例。 比如说,这是“一个留着爆炸头的20岁男子坐在一朵棉花云上,在蓝天中看书”文字描述所生成的视频。 或者是,一只戴着太阳镜的泰迪熊在巨大的瀑布前,在丛林中弹奏电吉他,跳着舞并且摇头晃脑。 可以看出,在这些视频中,Hotshot表现出的效果较为高清,展现出来画面相对准确,视频长度维持在5秒左右且画面流畅。“我们看到70%用户更喜欢Hotshot的结果,而不是其他的文生视频模型。”Hotshot创始人说道。 目前,Hotshot的测试版现已在官网上提供试用,且生成式的视频不带有任何水印。每位用户每天有两次免费生成视频的机会。 官网链接:https://hotshot.co/ “训练GPU就像开火车,保持每个环节都不能落下。” “训练模型就是软件界的火箭发射。” “每次优化程序都相当考验情感和理智,尤其是金钱方面。” 创始团队在其博客上分享了自己的从0打造文生视频模型的经历以及趣事,比如说他们曾差点烧掉机房,硅兔君也从中看到了初创企业对AI的热情不减。 Hotshot成立于2023年,共有三名创始人,Aakash Sastry、John Mullan和Duncan Crawbuck,均有11年打造消费级应用的经验。在其博客中,他们还分享了从0打造翻版“Sora”的关键四步:数据工程、研究、训练、以及扩展的过程以及思考。 硅兔君在原文基础上进行编译,以下enjoy~ 01 数据工程: 立下两个亿级目标 构建自己的视频、图像数据库 由于Hotshot要训练一个更大的模型,需要扩大模型的数据工程。在初期,他们设定了一个目标:将语料库扩展到6亿个剪辑视频,这需要承担巨大的运营开销。 Hotshot通过联合使用图像和视频来训练模型,以构建比视频更丰富的公开可访问图像数据。由于并没有自己的图像语料库,因此他们设定了一个新目标,将图像语料库扩展到10亿张图像。 尽管目前有许多公开的VLM可用于添加字幕(LLaVa、CogVLM 等),但由于它们是针对图像理解而非视频进行训练的,更擅长空间理解(颜色、物体、人物等),但在时间理解(动作、事物随时间的变化)方面却不尽人意。 为了解决这个问题,Hotshot创建了一个300K的视频样本数据集,其中包含密集的时间字幕,并以想要的风格手动添加字幕,并对公开可用的VLM进行了微调,以进行视频理解。几周时间后,Hotshot打造了一个视频字幕生成器,用来注释数亿个视频样本。 想要大规模部署该视频字幕生成程序,能处理数十亿张图片和视频剪辑并非易事。其中,最难的是他们需要在云端管理数千个GPU。“我们团队一个月24小时无休盯着这些GPU工作。”Hotshot创始团队提及,“这像一夜之间你需要数百或数千名基础员工。他们还各自有自己的想法,并不听话。” 02 研究: 用超参数训练自研自动编码器 如果想要快速得到一个优秀的模型,只需像Hotshot一样,在众多优秀开源存储库挑选一个,你就能有一个良好的开端。“我在Meta时,也曾这样打造了基于Transformer的Diffusion Model模型。”Hotshot创始人提及。 几天时间后,Hotshot获得了DiT(Diffusion Transformer)模型进行ImageNet训练的简单示例。他们开始训练一个新的自动编码器来在空间和时间上压缩视频,从而有效地训练长序列视频。 Hotshot官网展现9种不同表述生成的视频 Hotshot从未有过从头开始训练过自动编码器的经验,因此在该过程中,模型训练的不稳定带来很大困扰。训练进行到一半时,Hotshot发现鉴别器已经启动,但训练实际效果却没什么变化。最终他们使用不同的超过原有上限的参数据重新开始训练,一天时间后,生成器和鉴别器的损失都开始逐渐下降。根据此结果,Hotshot打造了一个新的自动编码器,作为网络端的输入。 03 训练: 确认合适训练架构,...