文章主题:颠覆·AIGC, 产业发展峰会, 肖欣延, 跨模态大模型

666AI工具大全,助力做AI时代先行者!

在5月23日,36氪成功举办了「颠覆·AIGC」产业发展峰会。这次盛会汇集了各行各业的顶尖人才,大家共同针对企业在面对变革时如何调整策略进行了深入探讨,分享了各自的见解。此外,会议还旨在发掘产业中最具发展潜力和价值的企业和技术,帮助各方在充满挑战的环境中找到前进的方向。

在一场盛大的会议上,我国知名科技公司百度的总架构师肖欣延,以《跨模态大模型赋能智能内容生成》为题,发表了一场深入浅出的主题演讲。在他的观点中,他认为我们正处于一个生成式人工智能的时代,内容生成有望成为新一代的生产方式,为行业的发展带来新的机遇。为了具体阐述这一理念,肖欣延详细介绍了百度在两大核心领域——图片生成与视频生成的研究成果:百度AI作画系统文心一格以及基于文心大模型的视频创作系统。这些成果充分展示了AIGC(人工智能创意生成)强大的内容生成能力与发展潜力。

在智能内容生成领域,AIGC的重要性显而易见。肖欣延强调,未来算法、算力和数据的进步将为AIGC的内容生成能力带来实质性的提升。首先,AIGC与语言模型的深度融合,将优化用户的语言交互体验;其次,AIGC在高维度的内容生产能力上,例如3D生成和长视频生成等方面,将有显著的改进;最后,随着AIGC的效果和易用性的提高,内容生成过程将更加简化和便捷。在演讲的结尾,肖欣延也提到了,AI目前所面临的问题,如事实一致性和不可控性等,未来的技术范式需要加入知识维度,通过精确的事实知识和多形态的知识推理,以确保AI的可信度和可控性,从而更好地服务于用户。

1703396226676.jpg

百度文心一格总架构师肖欣延

以下为肖欣延演讲实录(经36氪整理编辑):

作为一名篇文章写作高手,我非常荣幸能在此参加AIGC产业发展峰会。今天,我要向大家推荐的课题是《跨模态大模型赋能智能内容生成》。在这个主题下,我将主要从跨模态的角度,详细解析百度在智能内容生成领域所取得的突破性进展。

近期,人工智能成为众人瞩目的焦点。然而,这一领域并非从天而降,它的历史可以追溯到70多年前。早在1950年,图灵测试便提出了人工智能的概念。在接下来的40年里,人工智能的研究主要集中在逻辑推理和专家系统上,经历了许多曲折和起伏,甚至经历了两次寒冬。然而,进入90年代,机器学习、神经网络和深度学习逐渐崛起,人工智能的应用效果也随之不断提升。如今,随着AlphaGo、Transformer、GPT等技术的广泛应用,人工智能已经能够进行分类判别和创作生成,我们正处在一个生成式人工智能的时代。

AIGC(人工智能辅助内容生成)这一概念,尽管有不同的定义,但总体来说,它代表了一种新型生产方式,是人工智能带来的新一代生产力。它可以显著提高内容生产的效率,从而推动内容产业的发展。以下图表则概述了内容生产的演变过程,从早期的PGC专业化内容生产,到近年来UGC用户内容生产,再到去年开始的AIGC元年,借助AI技术或自动化技术进行内容生产和自动生产内容。我们可以看到,每一次内容生产方式的变革,都能带来巨大的内容生产力释放,为消费者带来全新的消费模式体验。因此,我们对AIGC的潜力充满信心,相信它会带来许多新的机遇。

AIGC能够取得今天的成就,其中大模型技术的进步发挥了关键作用。自AI2 ELMo、BERT等基础模型出现以来,随着百度文心ERNIE、GPT等先进模型的诞生,大模型技术在过去五年多的时间里,几乎每年都会有众多新型模型问世。这不仅推动了人工智能领域的技术创新,也为AIGC的发展提供了强有力的支撑。

作为一家走在科技前沿的领军企业,百度在大型模型领域的发展堪称领先者,且一直在不断深化研究。早在2019年,百度便开始涉足预训练模型的开发,逐步推出了ERNIE 1.0、ERNIE 2.0、PLATO以及ERNIE 3.0等一系列研究成果。凭借这些技术的累积,今年3月,百度成为全球首个在大型厂家中发布大语言模型的公司,推出了“文心一言”。此外,跨模态模型也是百度关注的一个方向。例如,OpenAI所推出的Dall-E,以及百度发布的ERNIE-ViLG等模型,都得到了广泛的关注和研究。

今天的报告从更具体内容介绍基于语言的跨模态内容生成,只要用人类擅长的语言就可以用机器帮我们生产图片和视频等内容。

首先介绍一下百度AI作画系统产品——文心一格。

文生图近年来进展非常惊人,最早在2018年时候基于GAN的图像生成方法只能生产模糊简单的图片,到2021年基于序列生成Transformer的框架,能比较好理解语言,根据语言生成意境还不错的图片。2022年扩散模型出来之后,能做像素级建模,既可以生成非常宏大的图片,也可以生成细节非常精美的图片。

也是在这个阶段百度推出”文心一格”,从技术角度来讲不是只有大模型,而是基于知识和大模型的文生图系统,综合利用知识图谱、跨模态生成和编辑模型,实现高效易用的创作。从理解用户需求,原创生成图片,到用户对图片进行编辑二次生成,对每一块我们都有相应技术满足。

首先是prompt学习。怎么输入一个比较好的文本描述,让模型生成好的图片,这一步对不少用户来说使用门槛比较高。为此,我们通过基于知识图谱的AI模型,理解用户的输入,然后对用户输入的prompt自动进行多种维度上的智能扩充,当然这两步我们也会端到端生成模式实现。右边展示的例子中,用户输入简单的描述,模型自动从视觉、质感、风格、构图等角度智能补充,从而生成更加精美图片。

接下来的扩散图像生成就是跨模态大模型发挥的地方。我们主要通过自研文生图大模型ERNIE-VILG实现。通过语言、视觉、跨模态进行知识增强,利用混合专家模型自动选择最优生成网络,在结合超过百亿的参数规模,就实现非常领先的效果。ERNIE-ViLG在MS-COCO的公开评估上以及人工评估中,取得了领先于DALL-E、stable Diffusion等竞品的效果。

基于上面技术,文心一格能够生成风格多样,更懂中文的图片。不管是关于茶道、京剧,还是中式建筑,文心一格的生成效果都非常好。除了比较真实图片的生成,在创意图片的生成上,比如这里的有一只慵懒的猫在粉色的家里面,一个狐狸骑摩托车,未来的绿色空中花园等,文心一格也可以实现对创意图片的畅想。我们已经上线了文心一格的小程序,大家可以现场体验一下。

如果生成一张图片之后不那么满意,文心一格有更多功能可以帮助用户进行二次编辑。首先,涂抹功能,用户可以涂抹不满意的部分,让模型重新调整生成。另外也有一个很有意思的图片叠加功能,用户给两张图片,模型会自动生成一张很有意思的创意图,比如给到水晶样式的花和小怪兽,我们就可以自动生成一张叠加后的创意图。我们还支持用户输入图片的可控生成,我们根据图片的动作或者线稿等生成新图片,让图片生成的结果更可控。

如果前面步骤没有办法满足用户的需求,文心一格还可以做小样本学习,快速获得一个优质的个人定制模型。只要提供几张相同概念图片到系统,经过几分钟微调就可以获得定制模型,能够保证想要的风格、主体都是一致。

第二部分介绍下文章转视频技术,也就是视频创作系统。

文章转视频是输入图文信息,输出视频内容。输入文本可以是网页文章、百科页面、ppt文档,甚至是搜索query,都可以自动生成视频。这个功能看起来非常的简单,但是简单背后是需要大量技术来实现的。

视频是当下信息最丰富的载体,它涉及到文本、字幕、脚本,还涉及到视频素材,以及如何编排这些素材,是一个很复杂的流程。参照人们的视频创作流程,我们将视频创作系统设计成三大块,文案理解与生成、素材分析与处理、素材扩充与编排,这每一步做的任务都很多,这背后是基于文心大模型统一建模的跨模态大模型来实现。

这个大模型就是百度发布的ERNIE-UNIMO,我们希望模型利用文本、图像、图文对数据做统一的预训练,通过这样的训练,模型能够实现通用的语言与视觉的理解与生成。从实际效果来看,不管在公开数据集还是评测榜单上,UNIMO模型比很多具体领域和模态的预训练模型,在每个领域都做得更好。这样的技术我们也用在刚才说的TTV生产当中,统一去执行各种各样的任务。

最后,探讨下AIGC的价值,展望下未来技术的发展。

首先AIGC正在大幅提升内容创作的质量和效率。我相信应该很多人现在做内容创作时候,首先想的都是先去用这些AIGC的工具,不再自己从头开始一点点做,这种AI辅助的方式使得整个生产效率得到大幅度提升。比如以海报制作来说,以前做海报成本比较高,通过AIGC的方式成本能降低50%-80%,制作时间从周级别到天级别。如果放到视频生成角度,成本制作节约的幅度更大。

除了提升效率,AIGC还能助力想象力涌现,创造出独特的AI作品。比如最左边画是一个猫穿唐装在有柳树的湖边,还可以用AI创作戒指、蛋糕这样的创意商品,创作力超乎我们的想象。

展望未来,大模型将进一步使得AIGC效果有质的提升。其实得益于算法、算力和数据的进展,现在AIGC效果已经有不错的进展了。将来,通过更强、更统一的算法,更高性能的算力和更高质量的大规模数据,整个AIGC的内容生成还将有质的提升。一方面,和语言模型有更加深度结合,提供更强的语言交互,用户可以通过语言更好更便捷的进行创作。第二,在更高维度的时空生成上,不管在时间上还是空间上,比如3D生成、长视频生成等等,都将取得突破。最后,AIGC将从辅助向自动发展,随着AIGC效果和易用性的提升,过去需要诸多步骤才能生成的图片,到时候AI一步就可以实现。

同时,现在AI也经常面临事实一致性、不可控等问题,将来整个技术范式还需要加上知识维度,在算法、算力和数据的基础上,通过精准事实知识、多形态知识、知识推理等确保AI走向可信可控,为用户提供更好服务。

相信AIGC在未来将创作出更多的价值。谢谢。

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *