与AI共舞,创享未来!关注公众号,获取独家AI资讯,使用先进AI工具,开启您的智能化生活之旅!

ai_linghr_sousou1.png

文章主题:颠覆·AIGC, 产业发展峰会, 肖欣延, 跨模态大模型

666AI工具大全,助力做AI时代先行者!

在5月23日,36氪成功举办了「颠覆·AIGC」产业发展峰会。此次盛会汇聚了各行各业的顶尖力量,旨在共同探讨企业在面对深度变革时如何制定有效的应对策略。在这场分享思考的盛宴中,与会者一起探索并发掘产业内部最具发展潜力和价值的企业和技术。在充满挑战的环境里,大家携手寻找前进的道路。

在一场盛大的会议上,我国知名科技公司百度的总架构师肖欣延,以“跨模态大模型赋能智能内容生成”为主题,发表了一场引人深思的演讲。在他的观点中,他认为我们正处于一个生成式人工智能的时代,内容生成有望成为新一代的生产方式,为行业的发展带来新的机遇。为了具体阐述这一理念,肖欣延详细介绍了百度在两大核心领域——图片生成和视频生成的研究成果:百度AI作画系统文心一格以及基于文心大模型的视频创作系统。这些成果充分展示了AIGC(人工智能创意生成)强大的内容生成能力和巨大的发展潜力。

在智能内容生成领域,AIGC的重要性显而易见。肖欣延阐述道,展望未来,算法、算力和数据的进步将为AIGC的内容生成能力带来实质性的提升。首先,AIGC与语言模型的深度融合,将优化用户的语言交互体验;其次,AIGC在高维度的内容生产能力上,例如3D生成和长视频生成等领域,将有显著的改进;最后,随着AIGC的效果和易用性的提高,内容生成过程将更加简化和便捷。在演讲结束时,肖欣延也强调了,AI目前所面临的问题,例如事实一致性和不可控性等,未来的技术范式需要加入知识维度,通过精确的事实知识和多形态的知识推理,以确保AI的可信度和可控性,从而更好地服务于用户。

1701700723164.jpg

百度文心一格总架构师肖欣延

以下为肖欣延演讲实录(经36氪整理编辑):

作为一名文章写作高手,我将按照您的要求对原文进行改写。在此,我非常荣幸地出席AIGC产业发展峰会,并有幸分享我的研究成果。《跨模态大模型赋能智能内容生成》是我的研究报告题目,本次演讲将聚焦于跨模态视角下,百度在智能内容生成领域的创新实践。

近期,人工智能的热度持续升温,然而,我们需要认识到,它的历史远不止于此。实际上,自1950年图灵测试提出以来,人工智能已经历了70多年的发展。在随后的40年里,人工智能的研究主要集中在逻辑推理和专家系统上,其发展道路充满曲折,历经两次寒冬。然而,进入上世纪90年代,机器学习、神经网络和深度学习逐渐崛起, followed by the well-known technologies such as AlphaGo、Transformer 和 GPT 等,使得人工智能的应用效果日益提升。如今,到了2022年,人工智能已经能够进行分类判别和创作生成,这意味着生成式人工智能时代的来临。

AIGC(人工智能辅助内容生成)作为一种新兴的生产方式,正在改变着内容生产的面貌。从我们的角度来看,它不仅是人工智能带来的新一代生产方式,更是新的生产力,具备显著提升内容生产效率的能力。以下图片大致描绘了内容生产的演变历程,从早期的PGC专业化内容生产,到近年来UGC用户内容生产,再到去年开始的AIGC元年,借助AI力量进行内容生产或自动化内容生产逐渐成为主流。回顾过去的历史,我们可以发现,每一次内容生产方式的革新都能带来巨大的内容生产力释放,为消费者带来全新的消费模式体验。因此,我们对AIGC所带来的新机遇充满期待。

AIGC能够取得今天的成就,其中大模型技术的进步起到了关键的推动作用。自AI2 ELMo和BERT等基础模型出现以来,随着百度文心ERNIE、GPT等先进模型的诞生,大模型技术在过去五年多的时间里,几乎每年都会有众多新型模型问世。这不仅极大地推动了人工智能领域的发展,同时也为AIGC提供了强有力的技术支持。

作为一家走在科技前沿的领军企业,百度在大型模型领域的发展堪称领先者,且一直在不断深化研究。早在2019年,百度便开始涉足预训练模型的开发,逐步推出了ERNIE 1.0、ERNIE 2.0、PLATO以及ERNIE 3.0等一系列研究成果。凭借这些技术的累积,今年3月,百度成为了全球首个在大型厂家中发布大语言模型的公司,推出了“文心一言”。此外,跨模态模型也是百度关注的一个方向。例如,OpenAI所推出的Dall-E,以及百度发布的ERNIE-ViLG等模型,都得到了广泛的关注和研究。

今天的报告从更具体内容介绍基于语言的跨模态内容生成,只要用人类擅长的语言就可以用机器帮我们生产图片和视频等内容。

首先介绍一下百度AI作画系统产品——文心一格。

文生图近年来进展非常惊人,最早在2018年时候基于GAN的图像生成方法只能生产模糊简单的图片,到2021年基于序列生成Transformer的框架,能比较好理解语言,根据语言生成意境还不错的图片。2022年扩散模型出来之后,能做像素级建模,既可以生成非常宏大的图片,也可以生成细节非常精美的图片。

也是在这个阶段百度推出”文心一格”,从技术角度来讲不是只有大模型,而是基于知识和大模型的文生图系统,综合利用知识图谱、跨模态生成和编辑模型,实现高效易用的创作。从理解用户需求,原创生成图片,到用户对图片进行编辑二次生成,对每一块我们都有相应技术满足。

首先是prompt学习。怎么输入一个比较好的文本描述,让模型生成好的图片,这一步对不少用户来说使用门槛比较高。为此,我们通过基于知识图谱的AI模型,理解用户的输入,然后对用户输入的prompt自动进行多种维度上的智能扩充,当然这两步我们也会端到端生成模式实现。右边展示的例子中,用户输入简单的描述,模型自动从视觉、质感、风格、构图等角度智能补充,从而生成更加精美图片。

接下来的扩散图像生成就是跨模态大模型发挥的地方。我们主要通过自研文生图大模型ERNIE-VILG实现。通过语言、视觉、跨模态进行知识增强,利用混合专家模型自动选择最优生成网络,在结合超过百亿的参数规模,就实现非常领先的效果。ERNIE-ViLG在MS-COCO的公开评估上以及人工评估中,取得了领先于DALL-E、stable Diffusion等竞品的效果。

基于上面技术,文心一格能够生成风格多样,更懂中文的图片。不管是关于茶道、京剧,还是中式建筑,文心一格的生成效果都非常好。除了比较真实图片的生成,在创意图片的生成上,比如这里的有一只慵懒的猫在粉色的家里面,一个狐狸骑摩托车,未来的绿色空中花园等,文心一格也可以实现对创意图片的畅想。我们已经上线了文心一格的小程序,大家可以现场体验一下。

如果生成一张图片之后不那么满意,文心一格有更多功能可以帮助用户进行二次编辑。首先,涂抹功能,用户可以涂抹不满意的部分,让模型重新调整生成。另外也有一个很有意思的图片叠加功能,用户给两张图片,模型会自动生成一张很有意思的创意图,比如给到水晶样式的花和小怪兽,我们就可以自动生成一张叠加后的创意图。我们还支持用户输入图片的可控生成,我们根据图片的动作或者线稿等生成新图片,让图片生成的结果更可控。

如果前面步骤没有办法满足用户的需求,文心一格还可以做小样本学习,快速获得一个优质的个人定制模型。只要提供几张相同概念图片到系统,经过几分钟微调就可以获得定制模型,能够保证想要的风格、主体都是一致。

第二部分介绍下文章转视频技术,也就是视频创作系统。

文章转视频是输入图文信息,输出视频内容。输入文本可以是网页文章、百科页面、ppt文档,甚至是搜索query,都可以自动生成视频。这个功能看起来非常的简单,但是简单背后是需要大量技术来实现的。

视频是当下信息最丰富的载体,它涉及到文本、字幕、脚本,还涉及到视频素材,以及如何编排这些素材,是一个很复杂的流程。参照人们的视频创作流程,我们将视频创作系统设计成三大块,文案理解与生成、素材分析与处理、素材扩充与编排,这每一步做的任务都很多,这背后是基于文心大模型统一建模的跨模态大模型来实现。

这个大模型就是百度发布的ERNIE-UNIMO,我们希望模型利用文本、图像、图文对数据做统一的预训练,通过这样的训练,模型能够实现通用的语言与视觉的理解与生成。从实际效果来看,不管在公开数据集还是评测榜单上,UNIMO模型比很多具体领域和模态的预训练模型,在每个领域都做得更好。这样的技术我们也用在刚才说的TTV生产当中,统一去执行各种各样的任务。

最后,探讨下AIGC的价值,展望下未来技术的发展。

首先AIGC正在大幅提升内容创作的质量和效率。我相信应该很多人现在做内容创作时候,首先想的都是先去用这些AIGC的工具,不再自己从头开始一点点做,这种AI辅助的方式使得整个生产效率得到大幅度提升。比如以海报制作来说,以前做海报成本比较高,通过AIGC的方式成本能降低50%-80%,制作时间从周级别到天级别。如果放到视频生成角度,成本制作节约的幅度更大。

除了提升效率,AIGC还能助力想象力涌现,创造出独特的AI作品。比如最左边画是一个猫穿唐装在有柳树的湖边,还可以用AI创作戒指、蛋糕这样的创意商品,创作力超乎我们的想象。

展望未来,大模型将进一步使得AIGC效果有质的提升。其实得益于算法、算力和数据的进展,现在AIGC效果已经有不错的进展了。将来,通过更强、更统一的算法,更高性能的算力和更高质量的大规模数据,整个AIGC的内容生成还将有质的提升。一方面,和语言模型有更加深度结合,提供更强的语言交互,用户可以通过语言更好更便捷的进行创作。第二,在更高维度的时空生成上,不管在时间上还是空间上,比如3D生成、长视频生成等等,都将取得突破。最后,AIGC将从辅助向自动发展,随着AIGC效果和易用性的提升,过去需要诸多步骤才能生成的图片,到时候AI一步就可以实现。

同时,现在AI也经常面临事实一致性、不可控等问题,将来整个技术范式还需要加上知识维度,在算法、算力和数据的基础上,通过精准事实知识、多形态知识、知识推理等确保AI走向可信可控,为用户提供更好服务。

相信AIGC在未来将创作出更多的价值。谢谢。

颠覆·AIGC, 产业发展峰会, 肖欣延, 跨模态大模型

aigc666aigc999_4.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *