文章主题:AI视频生成, Sora, 语义理解, 电影级别

666AI工具大全,助力做AI时代先行者!

来源:数字营销市场

Sora,这是OpenAI公司推出的首个文生视频模型,标志着AI产业革命的来临。在这个重要的时刻,我们不禁要问,中国的游戏玩家是否能够跟上这个步伐,参与到这场变革中来呢?

Sora的冲击

🕓 一年的时间,经历了ChatGPT的火爆风暴后,Sora再次创造了奇迹。与ChatGPT的文字生成相比,Sora的文生视频更为直观,力量感十足,给观众带来的震撼更为强烈。

第一个冲击,视频生成时长。

Sora图像视频处理技术强大,能够创建跨越时间和空间维度的图像与视频,其分辨率高达高清。借助这一功能,Sora能够实现最长60秒的高清视频连续生成。

在Sora面世之前, even longest例如Kaiber也仅能生成16s的长度,其他文生视频长度均为单位数字。然而,在2023年11月发布的模型中,最新的Pika1.0生成的长度已达到3-7秒,Stable Video Diffusion模型则为2-4秒,而李飞飞谷歌团队的W.A.I.T模型更是仅有3秒之长。

Sora的视频生成时长与竞争对手间是代差的区别。

Sora的视频生成技术可以理解为,它不仅具备了文本和图像的识别与生成能力,更在此基础上加入了时间的元素。这使得AI系统能够对现实世界的物理逻辑关系有更深入的理解。这也是业界认为Sora取得突破性进展的关键原因。

第二个冲击,语义理解。

Sora与ChatGPT都是OpenAI的产品,可以说,Sora在语义理解上具有天然的优势。

Sora通过利用GTP-4技术,把简短的用户指令转化为更为详尽的字幕,并将其發送到视频模型中,从而更好地理解和滿足客戶的需求。相比之下,Sora的主要競爭對手Runway在理解詞義微細方面存在困難,因此不得不固守提示中的特定描述,而忽略了其他描述,这就導致了两者之間的分歧。

1712341685986.jpg▌图源:网络

此外,基于语义的理解,Sora采用DALL·E3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。在此视觉训练数据的基础上,Sora还能实现现有图片赋予动态效果和延伸视频内容的长度等多种功能。

语义理解加深了人机之间的互动,让Sora更智能,这是第二个突破。

第三个冲击,电影级别的镜头感。

从发布的视频来看,Sora生成视频场景制作复杂度极高,可以和电影特效一较高下。业内评价:在60秒的视频中,视频主体与背景之间高度流畅和稳定;在一个视频里实现多角度镜头,分镜切换符合逻辑且十分流畅;此外,Sora对于光影反射、运动方式、镜头移动等细节处理非常到位。

1712341686521.jpg▌图源:网络

角色和背景在视觉风格准确一致,行为逻辑流畅合理,这就达到了电影的基本要求。考虑到智能生成和人工拍摄在成本、创意等方面的差距,电影市场惊呼一片也就可以理解了。

与对手的差距

很多投资机构大概率不会再投文生视频类项目了,因为OpenAI太强了。集智魔方创始人徐大大就公开表示,人工智能这一次的热潮很难留下太多机会,反而可能即将面临一个“霸权式创业”的时代。

也就是说,Sora横空出世之后,其他的文生视频模型的生存空间将被极度挤压。

1712341686845.jpg▌图源:网络

2024年AI视频生成赛道选手众多,不仅有美国AI初创公司Pika labs发布的“Pika 1.0”,还有谷歌推出的AI视频生成模型“W.A.L.T”等。国内,字节跳动于2023年11月推出了文生视频模型PixelDance,阿里紧随其后也上线了Animate Anyone模型,百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。此外,腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足视频生成领域。

业内人士总结,Sora之前的AI视频生成有两种类型:一是由剪辑工具衍生出来的“文生视频”产品。这类产品并不会根据文本内容原生视频素材,而是在素材库内进行调用。二是由多模态大模型衍生出来的“文生视频”产品,针对性地原生一部分素材的能力,如郭德纲说英语等。

1712341687177.jpg▌图源:网络

但Sora不同。

Sora的独特建立在对Patchs、Transformers、DALL·E3等技术的创新上。通过patchs统一视频数据,就像大语言模型在语言层面统一文本代码、数学和自然语言一样;依托Diffusion Transformers等技术架构,全面碾压Runway等其他文生视频模型;借鉴DALL·E3,在语义理解上全面胜出。依靠这些技术,Sora实现制作无缝循环视频、给静态图片添加动画、扩展视频时间线、视频到视频编辑、视频拼接等功能

总之,Sora的差距是技术的碾压,遥遥领先是客观事实。

我们的机会

国内选手应该如何看待Sora的遥遥领先?

首先,正视而不是夸大这种差距。以ChatGPT来说,2023年ChatGPT横空出世的时候,业内一片震惊。起初搜狗创始人王小川认为,OpenAI领先国内3年时间,但2023年6月,他去硅谷做了一番考察后,认为差距并没有这么大,而且国内应用层做的更出色,起码快美国三步。所以,看上去的差距实际上可能并没有那么大。

事实也说明这一点,ChatGPT之后,国内大模型接连出世,中美在大模型的竞争上分列世界前两名,彼此差距不大,且远远地把其他国家甩在身后。

1712341687650.jpg▌图源:网络

其次,认识并发挥中国AI的竞争优势。

根据历年来科技互联网的发展经验来看,中国往往在基础研究的突破落后于美国,但在延伸应用上却走在美国的前面。

移动支付、社交媒体、电商等方面中国都是后来居上。即使是近两年大火的AI,中国也有一较之力。美国在办公、金融、医疗的AI应用上处于领先地位,中国紧随其后,而AI+文娱、AI+交通等方面,中国则大幅领先于美国。

第三,广阔的国内市场是中国竞争最有力的底气。

制造是竞争力,但市场也是竞争力,需求更是竞争力。

中日基本同时启动大飞机项目,中国的C-919客机取得成功,日本却无奈退出研发。不是日本科技实力不足,而是日本市场缺乏足够的空间。新能源车上,锂电池领先氢能源电池,还有LED战胜DVD,都是市场起了决定性的作用。

1712341688075.jpg▌图源:网络

中国的大模型市场规模足够大。根据大模型之家、钛媒体数据,2023年中国大模型市场规模达到147亿人民币,同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币,2022-2028年复合增长率约为60.11%,市场规模快速成长。

海外已有Synthesia、Runway等厂商在文生视频领域形成成熟商业方案,应用于企业产品介绍、操作指南、客户服务等场景。随着中国的百度、阿里、头条的迎头赶上,文生视频的竞争中,国内选手不会输于Sora。

结 语

紧随Sora之后,谷歌Deep Mind团队发布基础世界模型Genie,通过给模型投喂视频数据进行训练,生成照片、草图甚至可以操控的虚拟世界。虚拟世界正不断向前,随着中国玩家的不断加入,这个世界会变得更加精彩。

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *