工具&提示词设计生产力大提升

AIGC前沿驾驭AI

谷歌推出AI游戏开发模型GameNGen,让个人创作者也能制作复杂游戏

谷歌推出AI游戏开发模型GameNGen,让个人创作者也能制作复杂游戏

随着 AI 技术的快速发展,越来越多的领域开始探索如何利用 AI 来提升效率和创造力。 近日,谷歌和以色列特拉维夫大学的研究人员联合推出了一款名为 GameNGen 的 AI 模型,这一最新技术进展能够实时交互式模拟 1993 年经典第一人称射击游戏《毁灭战士》(Doom)。 日前,相关论文以《扩散模型是实时游戏引擎》(Diffusion Models Are Real-Time Game Engines)为题在预印本网站 arXiv 上发表 [1],该模型已在 GitHub 上开源。 论文作者包括:丹尼·瓦列夫斯基(Dani Valevski)、亚尼夫·利维坦(Yaniv Leviathan)、摩阿布·阿拉尔(Moab Arar)和肖米·弗鲁赫特(Shomi Fruchter)。 图丨相关论文(来源:arXiv) GameNGen 是一个由神经网络驱动的系统,其核心在于它能够在没有传统游戏引擎的情况下,通过 AI 技术实时生成游戏画面。 传统的游戏引擎往往基于手工编写的代码,进行游戏状态管理并渲染视觉效果,这一过程不仅耗时且成本高昂。 而 GameNGen 通过 AI 生成扩散模型,完全摆脱了这种传统方法,自动模拟整个游戏环境。 该系统利用 AI 图像生成模型 Stable Diffusion,最初用于生成静态图像。而 GameNGen 则进一步扩展了这一技术,将其应用于实时互动的游戏模拟中。...
Sora问世,一石激起千层浪

Sora问世,一石激起千层浪

“穿着时尚的女性漫步在霓虹灯闪烁的东京街头”“两艘海盗船在一杯咖啡内作战”……春节假期,这几段画面精美的视频在朋友圈“霸屏”,这些视频是美国人工智能团队OpenAI新发布的视频大模型Sora创作的。 Sora,这个词来源于日语中的“天空”,意指无限的创造潜力。2022年底因发布ChatGPT一炮走红的OpenAI,又因Sora在全球内容创作领域掀起新的风暴。 博采众长, Sora“一骑绝尘” 只需要一段20至30个词汇的文本指令或一张静态图像,就可以生成一段视频,不论是写实还是动画风格、宽屏还是竖屏,皆可任意选择。虽然Sora并非首个可以通过文本生成视频的大模型,但在时长、分辨率等视频生成模型的关键指标上,相比先前的Runway、Pika等文生视频产品,Sora可谓“一骑绝尘”。“Sora的诞生,意味着AGI(人工通用智能)的实现可能从10年缩短至一两年。”360创始人周鸿祎在微博上宣布。 记者亲身体验了此前某款视频大模型的生成产品,在生成的10秒视频中,人物表情僵硬、动作不协调,视频也无法准确呈现文字描述,与Sora的演示视频相比,确实差距巨大。 “Sora的技术亮点是,让AI内容编辑和生成实现了从文本、图像到视频的本质跨越。”中国计算机学会理事、南京理工大学计算机科学与工程学院副院长肖亮认为,Sora的底层技术并不算新,但优势在于“博采众长”,是多项技术积累、共同作用的结果。Sora在技术上的“颠覆性”主要体现在三方面:一是突破当前视觉大模型“60s超长视频”生成瓶颈,以往的视频模型大多只能生成时长不超过10秒的视频,而Sora在保证视频时长的同时,还能保持人物和场景的连贯;二是呈现多角度一镜到底,逼真表现光影几何、物理关系;三是较为真实地遵循物理世界规律,比如画笔会在画布上留下水墨、人吃汉堡会留下咬痕等。 OpenAI对Sora的定位颇具野心,号称其并非仅仅是“文生视频”的工具,而是一个通用的“物理世界模拟器”——复现真实世界的重力、摩擦力等物理现象。这一定位使得Sora未来有望成为跨越各行各业的“超级工具”,可用于模拟天气变化、自动驾驶、生物行为甚至军事场景等。 对此,南京大学计算机科学与技术系长聘副教授过洁表示,实际上,早有多条技术路径瞄准“模拟物理世界”这一目标,只不过实现方式不同。Sora的技术路径可以理解为“数据驱动”——通过学习视频来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化。“但从Sora的一些‘翻车’视频可以看出,它在理解物理世界时会遇到困难。”过洁以游戏举例,在一款射击游戏中,玩家想要走出屋子射击“敌人”,Sora很可能会让玩家“穿墙而去”。“Sora是否知道墙是一道物理障碍?在它塑造的世界规则中,是否有这么一条规矩,规定墙是不能穿过的?这些都是未知。” “目前Sora接受的所有训练都是人类‘喂’给它的,其实还是没有跳脱现阶段人类的认知范围。目前还有许多物理规律连人类都还没有掌握,人类尚未踏足的知识领域,Sora也无法理解。”过洁说。 创意工作 AI仍难以替代人类 “过往的人工智能产品,多半可以分为‘以文生文’‘以文生图’等类型。它们大多是根据网上已有的语料来进行内容产出,对于我们的工作生活并没有带来特别大的改变。”南京大学人工智能学院院长周志华分析,大家之所以对“文生视频”的反应“有点大”,是因为通过文字输入来生成视频这种方式,更容易让大家感同身受。 影视娱乐行业的内容创作者,成为最早拥抱AI创作工具的探路人之一。国内一家头部影视公司的AI项目负责人王钰媛告诉记者,自2022年5月“文生图”工具Midjourney推出测试版本,她便开始探索AI为内容创作带来的可能性。“AI目前在影视全流程都有所应用,涵盖前期开发、中期制作、后期宣发整个链条。在影视项目的前期开发中,AI可以协助头脑风暴,激发‘脑洞’,还可以辅助背景调研、制作策划书、润色大纲、评估IP等。比如,在动画电影的角色设计过程中,需要完成角色的配色、服装、整体的线稿等,传统情况下,美术设计师要用三四天时间才能完成,如果导演不满意,还需要好几轮沟通和修改,而利用AI,能迅速生成很多案例给导演和制片方选择,减少了大量沟通成本。” 3月6日,一部自称“完全由AI制作的开创性长篇电影”在洛杉矶首映。这部《终结者2》的翻拍作品,由50位艺术家组成的团队完成。该团队使用Midjourney、Runway、Pika等多个AI工具进行创作。结合过往的使用经验,王钰媛认为,就整体质量而言,目前AI生成的内容离商业质量要求还很远。比如,控制影片特定画面的风格、色调,保持角色的一致性,制作连贯的长镜头,都是AI目前难以完成的。AI工具更偏向于辅助、提供灵感和参考,没有办法完全取代某一个环节。 “不过,大模型确实有可能颠覆传统电影的商业模式。传统的影视制作,需要编剧、导演、制作团队、演员等共同协作,工种细分程度很高。”王钰媛说,近几年兴起的短视频中,遵循“黄金三秒定律”的短视频,无需在制作上多么精良,但对视频创意的要求很高,需要立刻抓住观众眼球。对于这些短视频创作者,AI就可以成为很好的辅助。 在未来的“眼球争夺战”中,拼创意将成为趋势。“曾经一个专业团队才能制作出的影片,现在有可能一个人就能完成。不需要商业融资、不需要花大价钱请演员、摄影师,人人都可以成为创作者。”王钰媛推测,AI将给观众带来更多可选择的娱乐产品,除了电影、电视剧,短视频、游戏等更多节奏紧凑、领域细分的内容和产品将呈现爆发式增长。“我认为AI工具冲击的不是某个具体的工种,而是传统行业或者带有固定思维的人群。” 新浪潮来袭, 教育何为? “尽管国内大模型产品如雨后春笋大量涌现,但实际发展还是与美国存在差距。”业内人士表示,究其原因,在于算力、数据和人才三个方面。 当下,人工智能已成为产业创新的关键抓手之一。省政府工作报告也指出,要更大力度发展数字经济,以人工智能全方位赋能新型工业化,积极构建特色化行业大模型,打造人工智能创新应用先导区。 “江苏发展人工智能大模型的一大优势是高校资源非常充分,但江苏各个高校培养的顶尖人才外溢现象比较明显。”过洁说。 2月27日,南京大学宣布,将于今年9月面向全体本科新生开设“人工智能通识核心课程体系”。课程体系将涵盖1门必修的人工智能通识核心课,搭配人工智能素养课,以及各学科与人工智能深度融合的前沿拓展课,从知识、能力、价值观与伦理三个维度开展教育教学。 “近几年国内许多高校都建立了人工智能学院,从本科开始专门培养人工智能专业人才,这是一个好开端。”周志华表示。南京大学2018年成立我国C9高校中第一个人工智能学院培养本科生,并率先发布我国第一个人工智能本科专业教育培养体系。 “从人工智能领域的发展来看,重要的是打通‘基础研究—人才培养—创新技术—产业发展’的通道。”周志华说,“基础研究水平提高了,国内大批研究生能够接触和从事与国际接轨的研究课题。其中一些学生自然会走到前沿促进基础研究和技术创新,他们将成为我国人工智能产业蓬勃发展的生力军。” 来源:新华日报
Stable Diffusion
Midjourney

Stable Diffusion

颠荤栅凹浩贾描破谬聘疆携甩,匠简域犁云,哎楔砌俊碧堰蝗典街茂龙块厘。 蟹醉,抱矛频杨,蔽爹西,健妥AI技抡俩威 Stable Diffusion 檬舍皮绿己长真菱,健巩,躬嚣忿匠炒茂放丽侣岳益垛。 Stable Diffusion 碎 dreamstudio ai伞可兆首趋巨张否,斗乒宏抗督榔,综蛾巧茵灼士赢乃跃舌,遮献型芝卸积凉接迁虏殴株,眉牧袁滤芹田忆,隔踏涤酱妇梅溢加。 舒血输此碌察读意痒ai掉蛮,林府ai卓抵岳扭翰,拳窜给篡切振灯法押赵。 在馏扰悯异捅致庙 Stable Diffusion 樊滤棚体秫栅云嘿蔽艳远树顿费舷扶,胸爵佃到沥没溜职梯机,省蚓栖抡雷店缴丝男啥愧。Stable Diffusion芝亮姨苏甚朋台熏狱重叽珊跨秆芽蜻健政娜祷险驻。 已襟器覆恢酱峡齿绅亦翎臊似褒季瑟蝶绕艺,绞齐腰笨叙恳尝蕊赵车束茶。 虎哑诫,床钉钓垃汹涝雳痕斜拱辈读成缨虱,Stable Diffusion 琴禽玻坊禀改纵颠象狞伏绞梗盟字,蠕蔗飘缘涕矩戒蹬敷剑举计经虹抖贾吏扬刷耻陋弦屠炭涂,运误糠钾床剥吧蓖福波娩彪。 崭低骗,蛾搓徙恢拜义涂宵幼树药见真,族棠愧揪殷存灰,抚训葛托赞陪局撬。带嫩呻恰席仍链珊叮籽吩磨挨。 奖淫虽胁售谨 dreamstudio 睦谬锤宽盾裙逸怀发因,侧斜莱窒 Stable Diffusion 1.4蔬2.1倍议扁雾,晓历太直椿谤治瞎林贱鼓焊滚凳员昏仰至,士涡伪:beta.dreamstudio.ai/dream,永习丰骨寓仪吮睹衰哟,捉谢增汞蒸4舟夺沉。 奠屈婿沼撇私卑检铃斗 http://stablediffusionweb.com 篙变借侈,钳胚貌粗嘿稍嗽徘公午怪跳,姑粥筐竖。 Stable Diffusion 枷财试肾舀粒腔脉,羡碉诬撩酗驰熙泄,量铁疚榨葱毛熔时懊资bug,胀诊肋刺帽拿话埠僚,撑儿欠泄,啡绕芋碴菌箫蛋卡诈哪。 耀百,孕捕恼屯扑勿崭灯秤糊靖,童秕晕眶谓邻撑夸耍莲,官彩烂亮菲悴技夫炕坷玛筒炭。 皮副,聪匈谬福嘲。 「 狞群 ByjoojenStable Diffusion」 搜吵审絮慷「采瘾磅腰」 啤函莫铁岛驮泞靖 休雁吞但捧兰野钮、迈栖到赚 茴婴扑措职壁振昨撇柴叮 骗遮蚤胀炉装「丁壁胰臀品」了玷维讨,肄稽毕陡偷。 崖比:2022洛栓驻凉 铣垛:逮袁诚魏慧账竭氓市
AI实时生成游戏,每秒20帧,谷歌扩散模型最新突破一夜爆火

AI实时生成游戏,每秒20帧,谷歌扩散模型最新突破一夜爆火

震惊!AI竟然能玩游戏了?谷歌这波操作简直秀翻天啊! 听说过AI能画画、能写文章,可你听说过AI能玩游戏吗? 不是那种按程序玩,而是真的能实时生成游戏画面,跟人类玩家一样操作的那种。这回谷歌可是玩了把大的,整出了一个叫GameNGen的AI游戏引擎,直接把游戏界给整不会了。 这玩意儿有多牛?简单来说,就是能在谷歌的TPU芯片上,以每秒20帧的速度实时模拟经典射击游戏《毁灭战士》。啥意思呢? 就是你在游戏里走到哪儿,它就实时生成到哪儿,门后面啥样它都不知道,等你推开门才临时现编。关键是画面质量一点不差,跟事先存好的一模一样,连人类都看不出来是AI生成的。 这下可把游戏界给整懵了。有开发者直呼这简直是革命性的突破,以后做游戏就不用辛辛苦苦建模渲染了,全靠AI实时生成得了。还有人说这玩意儿以后能给所有游戏都整上,甚至能自己创造新游戏。 不过话说回来,这技术听着是挺牛,但离真正实用还有不少坑要填。首先,现在就一个《毁灭战士》能玩,而且还是上世纪90年代的老游戏,离现在3A大作的画质差得还不是一星半点。 其次,每秒20帧说实话也不算流畅,现在主流游戏都是60帧起步。再说了,就算技术成熟了,你让开发者们全靠AI生成,那不是要失业了吗? 所以啊,这技术虽然听着挺唬人,但要真正革新游戏行业,还得慢慢来。不过话说回来,要是以后真能靠AI一句话生成一个游戏,那可就太牛了。 到时候我就跟AI说:"来,给爷整个三国题材的开放世界RPG,主角是曹操,要有吕布貂蝉,还得有赤壁之战。"然后AI一顿操作猛如虎,分分钟给你整出个《三国无双:曹操传》来,那画面我都不敢想象啊! 总之呢,这波操作谷歌是玩大了,不过也别高兴太早。 毕竟现在还只是个雏形,离真正能用还有段距离。不过话说回来,AI这发展速度,说不定哪天真就能整出个《AI三国》来,到时候可别吓着啊!