文章主题:颠覆·AIGC, 产业发展峰会, 肖欣延, 跨模态大模型
在5月23日,36氪成功举办了「颠覆·AIGC」产业发展峰会。此次盛会汇聚了各行各业的顶尖力量,旨在共同探讨企业在面对深度变革时如何制定有效的应对策略。在这场分享思考的盛宴中,与会者一起探索并发掘产业内部最具发展潜力和价值的企业和技术。在充满挑战的环境里,大家携手寻找前进的道路。
在一场盛大的会议上,我国知名科技公司百度的总架构师肖欣延,以《跨模态大模型赋能智能内容生成》为题,发表了一场深入浅出的主题演讲。在他的观点中,他认为我们正处于一个生成式人工智能的时代,内容生成有望成为新一代的生产方式,为行业的发展带来新的机遇。为了具体阐述这一理念,肖欣延详细介绍了百度在两大核心领域——图片生成与视频生成的研究成果:百度AI作画系统文心一格以及基于文心大模型的视频创作系统。这些成果充分展示了AIGC(人工智能创意生成)强大的内容生成能力与发展潜力。
在智能内容生成领域,AIGC的重要性显而易见。肖欣延阐述道,展望未来,算法、算力和数据的进步将为AIGC的内容生成能力带来实质性的提升。首先,AIGC与语言模型的深度融合,将优化用户的语言交互体验;其次,AIGC在高维度的内容生产能力,例如3D生成和长视频生成等方面,将取得显著的改进;最后,随着AIGC效果和易用性的提升,内容生成流程将实现极致简化,操作更加便捷。在演讲结尾,肖欣延也强调了,面对当前AI所面临的事实一致性、不可控等问题,未来的技术范式需要融入知识维度,通过精确事实知识和多形态知识推理等技术手段,确保AI走向可信可控,从而更好地服务于用户。
百度文心一格总架构师肖欣延
以下为肖欣延演讲实录(经36氪整理编辑):作为一名文章写作高手,我将按照您的要求对原文进行改写。在此,我非常荣幸地出席AIGC产业发展峰会。今天,我所要分享的主题是《跨模态大模型赋能智能内容生成》。在这次报告中,我将主要从跨模态的角度,详细介绍百度在智能内容生成领域所取得的突破性成果。
近期,人工智能成为众人瞩目的焦点。然而,这一领域并非从天而降,其发展历程可追溯至70多年前。早在1950年,图灵测试便提出了人工智能的概念。在接下来的40年里,人工智能的研究主要集中在逻辑推理和专家系统上,经历了许多曲折和起伏,历经两次寒冬。随着时代的变迁,机器学习、神经网络和深度学习等新技术逐渐崛起,使得人工智能的应用效果日益显著。如今,AlphaGo、Transformer、GPT等技术已广为人知,人工智能的实用价值不断提升。到了2022年,人工智能不仅在分类判别方面表现出色,同时也能进行创作和生成,标志着生成式人工智能时代的来临。
AIGC(人工智能辅助内容生成)这一概念,尽管有多种定义,但总体来说,它代表了一种新型生产方式,是人工智能带来的新一代生产力。它可以显著提高内容生产的效率,从而推动内容产业的发展。以下图片则生动地展示 content production 的演变历程,从早期的 PGC(专业内容生产)到 UGC(用户内容生产),再到近年来兴起的 AIGC 元年,借助 AI 技术的内容生产或自动生产已经逐渐成为主流。我们可以清晰地看到,每一次内容生产方式的革新,都能带来巨大的内容生产力释放,为消费者带来全新的消费模式体验。因此,我们对 AIGC 的未来充满期待,相信它将为我们带来许多前所未有的新机遇。
AIGC能够取得今天的成就,其中大模型技术的进步起到了关键的推动作用。自AI2 ELMo和BERT等基础模型出现以来,随着百度文心ERNIE和GPT等高级模型的诞生,大模型技术在过去五年多的时间里,几乎每年都会有众多新模型问世。这股强大的创新力量不仅推动了AIGC领域的发展,同时也为整个行业带来了前所未有的繁荣景象。
作为一家走在科技前沿的领军企业,百度在大型模型领域的发展堪称领先者,且一直在不断深化研究。早在2019年,百度便开始涉足预训练模型的开发,逐步推出了ERNIE 1.0、ERNIE 2.0、PLATO以及ERNIE 3.0等一系列研究成果。凭借这些技术的累积,今年3月,百度成为全球首个在大型厂家中发布大语言模型的公司,推出了“文心一言”。此外,跨模态模型也是百度关注的一个方向。例如,OpenAI所推出的Dall-E,以及百度发布的ERNIE-ViLG等模型,都得到了广泛的关注和研究。
今天的报告从更具体内容介绍基于语言的跨模态内容生成,只要用人类擅长的语言就可以用机器帮我们生产图片和视频等内容。
首先介绍一下百度AI作画系统产品——文心一格。
文生图近年来进展非常惊人,最早在2018年时候基于GAN的图像生成方法只能生产模糊简单的图片,到2021年基于序列生成Transformer的框架,能比较好理解语言,根据语言生成意境还不错的图片。2022年扩散模型出来之后,能做像素级建模,既可以生成非常宏大的图片,也可以生成细节非常精美的图片。
也是在这个阶段百度推出”文心一格”,从技术角度来讲不是只有大模型,而是基于知识和大模型的文生图系统,综合利用知识图谱、跨模态生成和编辑模型,实现高效易用的创作。从理解用户需求,原创生成图片,到用户对图片进行编辑二次生成,对每一块我们都有相应技术满足。
首先是prompt学习。怎么输入一个比较好的文本描述,让模型生成好的图片,这一步对不少用户来说使用门槛比较高。为此,我们通过基于知识图谱的AI模型,理解用户的输入,然后对用户输入的prompt自动进行多种维度上的智能扩充,当然这两步我们也会端到端生成模式实现。右边展示的例子中,用户输入简单的描述,模型自动从视觉、质感、风格、构图等角度智能补充,从而生成更加精美图片。
接下来的扩散图像生成就是跨模态大模型发挥的地方。我们主要通过自研文生图大模型ERNIE-VILG实现。通过语言、视觉、跨模态进行知识增强,利用混合专家模型自动选择最优生成网络,在结合超过百亿的参数规模,就实现非常领先的效果。ERNIE-ViLG在MS-COCO的公开评估上以及人工评估中,取得了领先于DALL-E、stable Diffusion等竞品的效果。
基于上面技术,文心一格能够生成风格多样,更懂中文的图片。不管是关于茶道、京剧,还是中式建筑,文心一格的生成效果都非常好。除了比较真实图片的生成,在创意图片的生成上,比如这里的有一只慵懒的猫在粉色的家里面,一个狐狸骑摩托车,未来的绿色空中花园等,文心一格也可以实现对创意图片的畅想。我们已经上线了文心一格的小程序,大家可以现场体验一下。
如果生成一张图片之后不那么满意,文心一格有更多功能可以帮助用户进行二次编辑。首先,涂抹功能,用户可以涂抹不满意的部分,让模型重新调整生成。另外也有一个很有意思的图片叠加功能,用户给两张图片,模型会自动生成一张很有意思的创意图,比如给到水晶样式的花和小怪兽,我们就可以自动生成一张叠加后的创意图。我们还支持用户输入图片的可控生成,我们根据图片的动作或者线稿等生成新图片,让图片生成的结果更可控。
如果前面步骤没有办法满足用户的需求,文心一格还可以做小样本学习,快速获得一个优质的个人定制模型。只要提供几张相同概念图片到系统,经过几分钟微调就可以获得定制模型,能够保证想要的风格、主体都是一致。
第二部分介绍下文章转视频技术,也就是视频创作系统。
文章转视频是输入图文信息,输出视频内容。输入文本可以是网页文章、百科页面、ppt文档,甚至是搜索query,都可以自动生成视频。这个功能看起来非常的简单,但是简单背后是需要大量技术来实现的。
视频是当下信息最丰富的载体,它涉及到文本、字幕、脚本,还涉及到视频素材,以及如何编排这些素材,是一个很复杂的流程。参照人们的视频创作流程,我们将视频创作系统设计成三大块,文案理解与生成、素材分析与处理、素材扩充与编排,这每一步做的任务都很多,这背后是基于文心大模型统一建模的跨模态大模型来实现。
这个大模型就是百度发布的ERNIE-UNIMO,我们希望模型利用文本、图像、图文对数据做统一的预训练,通过这样的训练,模型能够实现通用的语言与视觉的理解与生成。从实际效果来看,不管在公开数据集还是评测榜单上,UNIMO模型比很多具体领域和模态的预训练模型,在每个领域都做得更好。这样的技术我们也用在刚才说的TTV生产当中,统一去执行各种各样的任务。
最后,探讨下AIGC的价值,展望下未来技术的发展。
首先AIGC正在大幅提升内容创作的质量和效率。我相信应该很多人现在做内容创作时候,首先想的都是先去用这些AIGC的工具,不再自己从头开始一点点做,这种AI辅助的方式使得整个生产效率得到大幅度提升。比如以海报制作来说,以前做海报成本比较高,通过AIGC的方式成本能降低50%-80%,制作时间从周级别到天级别。如果放到视频生成角度,成本制作节约的幅度更大。
除了提升效率,AIGC还能助力想象力涌现,创造出独特的AI作品。比如最左边画是一个猫穿唐装在有柳树的湖边,还可以用AI创作戒指、蛋糕这样的创意商品,创作力超乎我们的想象。
展望未来,大模型将进一步使得AIGC效果有质的提升。其实得益于算法、算力和数据的进展,现在AIGC效果已经有不错的进展了。将来,通过更强、更统一的算法,更高性能的算力和更高质量的大规模数据,整个AIGC的内容生成还将有质的提升。一方面,和语言模型有更加深度结合,提供更强的语言交互,用户可以通过语言更好更便捷的进行创作。第二,在更高维度的时空生成上,不管在时间上还是空间上,比如3D生成、长视频生成等等,都将取得突破。最后,AIGC将从辅助向自动发展,随着AIGC效果和易用性的提升,过去需要诸多步骤才能生成的图片,到时候AI一步就可以实现。
同时,现在AI也经常面临事实一致性、不可控等问题,将来整个技术范式还需要加上知识维度,在算法、算力和数据的基础上,通过精准事实知识、多形态知识、知识推理等确保AI走向可信可控,为用户提供更好服务。
相信AIGC在未来将创作出更多的价值。谢谢。
颠覆·AIGC, 产业发展峰会, 肖欣延, 跨模态大模型
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!