文章主题：，Sora，视频生成时长，语义理解，电影级别的镜头感

来源：数字营销市场

🎉🚀【AI新纪元】OpenAI引领潮流！💡🔥2月16日深夜，全球瞩目的Sora文生视频模型震撼发布，标志着AI技术的又一里程碑！🏆中国的游戏者们，是否还在为创新的挑战而困惑？🤔面对这个科技巨头的强势冲击，你们是否准备好迎接这场智能风暴？🔍别担心，这并不意味着中国玩家被边缘化。相反，它提供了无限可能和崭新的战场。🔥创新无界，Sora正以独特的方式引领我们探索未来娱乐的新天地！🚀让我们一起见证，如何在AI的浪潮中找到属于自己的位置，共同塑造未来的互动体验！👩‍💻👨‍💻💪记得，每一次技术的进步都是为了更好地连接和表达，而不是取代。拥抱变革，让创新照亮前行的道路！🌍✨

Sora的冲击

🎉【ChatGPT热度未减，Sora再创辉煌】🌟在时间的流转中，一年后的ChatGPT余温犹存，而神秘的创新者Sora再次以惊艳的方式，引领了一场文化风暴。👀相较于文字生成的广袤领域，Sora以其独特的视频文生方式，犹如视觉盛宴，直击心灵，释放更强的感染力。💥每一帧都像是一次震撼人心的触动，让观众沉浸其中，感受其无与伦比的艺术冲击。ChatGPT的文字魅力不容忽视，但Sora带来的不仅仅是技术的进步，更是内容表达的新维度。📚视频的直观性与爆发力，无疑为信息时代的传播开辟了崭新路径。🌍无论是教育、娱乐还是创意产业，Sora都以其创新的姿态，展现出无限可能。让我们期待，未来Sora如何继续突破界限，引领潮流，用艺术的力量连接世界。🌐SEO优化词汇：ChatGPT热度、Sora再创奇迹、视频文生、直观感染力、内容新维度、技术进步、传播路径、教育娱乐产业、创新姿态、艺术力量、连接世界。

第一个冲击，视频生成时长。

Sora凭借其强大的通用视觉数据处理，可以生成跨越不同持续时间、纵横比和分辨率的图像视频，最多可以连续生成60秒的高清视频。

在Sora推出之前，最长的例如Kaiber也是只能生成16s的长度，其他的文生视频长度都是个位数。如在2023年11月推出的模型中，最新的Pika1.0生成是3-7秒，Stable Video Diffusion模型是2-4秒，李飞飞谷歌团队W.A.I.T模型是3秒。

Sora的视频生成时长与竞争对手间是代差的区别。

我们可以这样理解Sora的视频生成时长：在对文字和图像识别和生成的基础上，Sora又叠加了时间的维度。这样AI初步具有了对真实世界物理逻辑关系的理解，这就是为什么业内会认为Sora实现突破性的跨越的主要原因。

第二个冲击，语义理解。

Sora与ChatGPT都是OpenAI的产品，可以说，Sora在语义理解上具有天然的优势。

Sora借助GTP-4将简短的用户提示转换为更长的详细字幕，然后发送到视频模型，有助于Sora更好理解客户需求。对比之下，Sora的主要对手Runway很难理解词义上的细微差别，不得不坚持提示中的特定描述而忽略其他描述。二者之间就这样产生了差距。

▌图源：网络

此外，基于语义的理解，Sora采用DALL·E3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。在此视觉训练数据的基础上，Sora还能实现现有图片赋予动态效果和延伸视频内容的长度等多种功能。

语义理解加深了人机之间的互动，让Sora更智能，这是第二个突破。

第三个冲击，电影级别的镜头感。

从发布的视频来看，Sora生成视频场景制作复杂度极高，可以和电影特效一较高下。业内评价：在60秒的视频中，视频主体与背景之间高度流畅和稳定；在一个视频里实现多角度镜头，分镜切换符合逻辑且十分流畅；此外，Sora对于光影反射、运动方式、镜头移动等细节处理非常到位。

▌图源：网络

角色和背景在视觉风格准确一致，行为逻辑流畅合理，这就达到了电影的基本要求。考虑到智能生成和人工拍摄在成本、创意等方面的差距，电影市场惊呼一片也就可以理解了。

与对手的差距

很多投资机构大概率不会再投文生视频类项目了，因为OpenAI太强了。集智魔方创始人徐大大就公开表示，人工智能这一次的热潮很难留下太多机会，反而可能即将面临一个“霸权式创业”的时代。

也就是说，Sora横空出世之后，其他的文生视频模型的生存空间将被极度挤压。

▌图源：网络

2024年AI视频生成赛道选手众多，不仅有美国AI初创公司Pika labs发布的“Pika 1.0”，还有谷歌推出的AI视频生成模型“W.A.L.T”等。国内，字节跳动于2023年11月推出了文生视频模型PixelDance，阿里紧随其后也上线了Animate Anyone模型，百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。此外，腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足视频生成领域。

业内人士总结，Sora之前的AI视频生成有两种类型：一是由剪辑工具衍生出来的“文生视频”产品。这类产品并不会根据文本内容原生视频素材，而是在素材库内进行调用。二是由多模态大模型衍生出来的“文生视频”产品，针对性地原生一部分素材的能力，如郭德纲说英语等。

▌图源：网络

但Sora不同。

Sora的独特建立在对Patchs、Transformers、DALL·E3等技术的创新上。通过patchs统一视频数据，就像大语言模型在语言层面统一文本代码、数学和自然语言一样；依托Diffusion Transformers等技术架构，全面碾压Runway等其他文生视频模型；借鉴DALL·E3，在语义理解上全面胜出。依靠这些技术，Sora实现制作无缝循环视频、给静态图片添加动画、扩展视频时间线、视频到视频编辑、视频拼接等功能

总之，Sora的差距是技术的碾压，遥遥领先是客观事实。

我们的机会

国内选手应该如何看待Sora的遥遥领先？

首先，正视而不是夸大这种差距。以ChatGPT来说，2023年ChatGPT横空出世的时候，业内一片震惊。起初搜狗创始人王小川认为，OpenAI领先国内3年时间，但2023年6月，他去硅谷做了一番考察后，认为差距并没有这么大，而且国内应用层做的更出色，起码快美国三步。所以，看上去的差距实际上可能并没有那么大。

事实也说明这一点，ChatGPT之后，国内大模型接连出世，中美在大模型的竞争上分列世界前两名，彼此差距不大，且远远地把其他国家甩在身后。

▌图源：网络

其次，认识并发挥中国AI的竞争优势。

根据历年来科技互联网的发展经验来看，中国往往在基础研究的突破落后于美国，但在延伸应用上却走在美国的前面。

移动支付、社交媒体、电商等方面中国都是后来居上。即使是近两年大火的AI，中国也有一较之力。美国在办公、金融、医疗的AI应用上处于领先地位，中国紧随其后，而AI+文娱、AI+交通等方面，中国则大幅领先于美国。

第三，广阔的国内市场是中国竞争最有力的底气。

制造是竞争力，但市场也是竞争力，需求更是竞争力。

中日基本同时启动大飞机项目，中国的C-919客机取得成功，日本却无奈退出研发。不是日本科技实力不足，而是日本市场缺乏足够的空间。新能源车上，锂电池领先氢能源电池，还有LED战胜DVD，都是市场起了决定性的作用。

▌图源：网络

中国的大模型市场规模足够大。根据大模型之家、钛媒体数据，2023年中国大模型市场规模达到147亿人民币，同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币，2022-2028年复合增长率约为60.11%，市场规模快速成长。

海外已有Synthesia、Runway等厂商在文生视频领域形成成熟商业方案，应用于企业产品介绍、操作指南、客户服务等场景。随着中国的百度、阿里、头条的迎头赶上，文生视频的竞争中，国内选手不会输于Sora。

结语

紧随Sora之后，谷歌Deep Mind团队发布基础世界模型Genie，通过给模型投喂视频数据进行训练，生成照片、草图甚至可以操控的虚拟世界。虚拟世界正不断向前，随着中国玩家的不断加入，这个世界会变得更加精彩。

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Sora的冲击

与对手的差距

我们的机会

结 语

相关文章

发表回复 取消回复

结语

发表回复取消回复