打破想象！OpenAI的Sora如何颠覆视频生成，谷歌迎战的背后，我们能否见证下一个‘Sora’？

文章主题：, Sora, Google, Gemini 1.5 Pro

🎉春节期间科技巨头震撼！💡OpenAI推出超强🔥”文字转视频”大模型”Sora”，在全球范围内掀起了一场技术风暴。🏆这款创新工具以其卓越的生成能力，瞬间超越众多竞争对手，成为人工智能领域的耀眼明星。🌍无论你是艺术爱好者还是科技发烧友，Sora都将为你带来前所未有的视觉盛宴，引领未来内容创作的新潮流。🌐欲了解更多详情，敬请关注相关AI动态，一起探索无限可能！✨

与此同时，Runway、Pika等国外大模型团队正准备招兵买马，与Sora正面竞争。发布短短96小时内，国内已有AI团队火速上线相关“文字生成视频”大模型，但与国外主流AI视频模型能力相仿，均无法超越Sora的水平。而上海作为国内人工智能产业的重镇，也已经着手开始AI生成视频的研发工作。

在这场争分夺秒的技术革命中，谁能成为下一个“Sora”？

碾压同行

🔥【科技巨头竞相亮剑】🚀 2月16日，科技巨头谷歌以惊人的速度推出Gemini 1.5 Pro，这款多模态大模型的超强性能，让业界为之震撼！它超越了OpenAI的GPT-4 Turbo，成为引领潮流的新标杆。然而，风云突变，OpenAI在同一日发布的Sora大模型，凭借其革命性的视频自动生成能力，瞬间抢走了不少风头。这不仅是ChatGPT和Dall-E之后又一颠覆性产品，更是技术突破的象征。🔥

Sora并非是首个文本生成视频的大模型。据不完全统计，截至去年底，全球能实现文生视频的大模型包括Runway、Pika、Stable Video Diffusion等超过20个产品。

然而，Sora的诞生仍给业界带来了不小的震撼，它所展现出来的能力几乎可用“碾压”来形容。

用户仅需输入简短一句话，Sora可以生成一段长达60秒的视频，远远超过市面同类型级别的AI视频生成时长。在此之前，AI视频模型生成时长几乎在10秒以内，而“明星模型”Runway和Pika等几乎也仅有3—4秒。

✨【超乎想象】60秒创新突破！ säora引领未来短视频新纪元🚀 以独特魅力打破平台常规，挑战时间限制！每一段60秒的”Sora”不仅仅是内容，它是内容与创新的完美融合，为短视界开辟了无限可能。未来的短视频平台，将因Sora而变革，内容生产迎来全新高度🏆 让我们一起期待，Sora如何用这超时空的60秒，定义下一个爆款！🌍 #Sora #短视频革命 #未来已来

Sora保证视频时长的同时，也加强了视频质量的稳定性。记者体验此前的AI生成视频时发现，即便是几秒钟的视频也并不连贯，有较强的拼凑感。而Sora几乎能做到60秒视频一镜到底，OpenAI的演示视频显示，一名时尚女性走过喧闹繁华的东京街头，无论是背景建筑和街道以及人像的逼真程度，都保持了一致性，哪怕是各种镜头的“蒙太奇”，都没有出现明显的失真情况。

🌟🚀OpenAI’s game-changer, Sora, prowess lies in its ability to comprehend user needs beyond imagination. With years of dedicated research in both text and images, the AI mastermind has mastered the intricate dynamics of how these concepts exist in our tangible world. 🤖🌐Experience the next level of intelligent interaction with Sora, fueling innovation and enhancing your digital journey. #Sora #OpenAI #InnovativeAI

上海市人工智能行业协会秘书长钟俊浩解释，Sora的训练依赖于大量带有文本标题的视频数据。OpenAI利用了DALL-E 3中的标题生成技术，为视频生成高质量的文本标题，以此来提高文本和视频数据之间的对齐度。同时，在大规模训练过程中，Sora展示了一些“涌现的模拟能力”，如三维一致性、长距离连贯性、物体持久性以及与世界互动等。这些能力表明，Sora能够在一定程度上模拟物理世界和数字世界中的人物、动物和环境。

用哔哩哔哩科技Up主“Git源宝”的大白话来说——OpenAI先拆解了大量的视频素材，并将文字与视频做匹配对应，之后又进行了密集的训练，使Sora拥有了自主生成视频的能力。

Bug不少

虽然技术令人惊艳，但Sora的视频生成能力并不完美。根据现已披露的视频显示，不少素材仍会呈现出“一眼假”，不符合物理学规律等AI生成的Bug（漏洞）也不少。

🎨👀 看这视频，幼狼的嬉戏仿佛是自然界的魔术秀，但细心观察却发现一些小瑕疵哦！数量在三到五只间跳跃，虽然动态流畅，可这种“瞬移”般的转换确实让人费解呢😊。还有那个老人吹灭蜡烛的场景，Sora似乎不太懂规则，蛋糕上的火苗虽旺，可蜡烛却纹丝不动，这画面有点尴尬💡。同样，在红酒杯碎裂的环节，剧情的发展更是出人意料。杯子还没落地，美酒已满桌流淌，这不是我们期待的顺序哦流动性与逻辑之间，Sora似乎还需加强理解滴Glass in hand, but the wine spills first…显然这里有个小误会。\n\n这样的生成结果，虽然创意十足，但在细节和逻辑上，Sora还需要打磨，让艺术与科学无缝对接，提升观众沉浸体验呢！📚✨

Sora视频中的bug。来源：哔哩哔哩

或许是考虑性能、安全等问题，Sora并未向公众开放，目前处于安全测试阶段，仅向“红队测试人士”（针对潜在危险行为的测试）和少数创作者开放。据外媒预测，GPT-4经过6个月的测试后正式向公众开放，预计Sora或将于8月向公众开放。

🌟技术难题面前，Sora的挑战重重🌟 AI领域的领头羊钟俊浩指出，相较于文本对话和图片生成，Sora在路径上还面临着不小的困扰。首先，高昂的训练成本就像一道难以逾越的鸿沟，数据集的质量直接影响其成长速度；其次，视频描述的不清晰性增加了技术解析的难度，亟待更精确的解决方案。这些门槛无疑是对Sora智慧前行的一大考验。

“视频生成需要处理和预测长时间跨度内的动作和场景变化，这增加了模型的复杂度和训练的计算需求。”他认为，与文本和图像相比，适用于视频生成的多模态高质量数据集相对较少，这限制了模型学习复杂动作语义的能力，不仅如此，描述视频内容比描述静态图像更加复杂，因为它需要包括时间上的变化、动作以及可能的情感或故事线索。

值得一提的是，在Sora发布的同时，OpenAI宣布一项要约售股交易，由此OpenAI整体估值高达800亿美元，一年内飙升两倍多。以国外调研公司CB Insights统计，OpenAI已经成为全球估值最高的创业公司之一，仅次于字节跳动和SpaceX。

难言颠覆

作为龙年科技界的“第一把火”，Sora的横空出世也引爆了学界、业界和投资界的讨论热度。

短短4天内，中信建投、国泰君安、申万宏源、招商证券等10家券商在研报中均表示，Sora 是人工智能发展进程中的“里程碑”，预示AGI（通用人工智能）将加速到来，众多行业将迎颠覆式变革。

比如天风证券认为，内容创作工作流有望被颠覆，下一个亿级用户的互联网平台雏形出现。2000亿美元的短视频创作生态有望率先被颠覆，生成式AI在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透；招商证券指出，当前展示的效果来看，Sora显著领先于其他文生视频模型，推动AI视频生成进入了一个全新的时代；中信证券从投资角度判断，Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向，硬件端的需求也必然会随着多模态的技术进步而不断提高，仍然持续看好AI算力。

“Sora让人震惊，很大原因是AI的发展速度远远超过了原来的预期。但不意味着短时间能形成生产力。”钟俊浩认为，Sora现在能力还不足以颠覆行业，特别是影视行业和游戏行业高度依赖创意、情感投入和人类故事讲述的领域。AI视频生成技术可以提供帮助，比如降低制作成本、加速内容生成、甚至在某些情境下提供创意灵感，但它们目前还不能完全替代人类在创作过程中的独特视角和情感深度。“Sora的角色更多的是赋能创作者，而不是替代他们提供实现创意愿景的新途径。”

根据现有观察，Sora的文本到视频生成技术难以进行精细的局部调整。如果用户希望修改视频中的某个具体细节，可能需要进行复杂的手工编辑，这不仅工作量大，而且也要求用户具备一定的视频编辑技能。同时，Sora每次生成的视频内容有较大变化，难以保持一致的叙事风格或视觉风格。“即便是60秒超长视频，也无法满足大部分的影视作品需求，将多个短视频片段拼接起来，在转场的协调和连贯性上也带来了额外挑战。”钟俊浩表示。

“Game On”

Sora出手即“王炸”，AI生成视频创业公司无疑将面临巨大压力。Runway CEO瓦伦祖拉在社交媒体写道“Game On”（游戏开始了），Stability CEO莫斯塔克由衷夸赞“奥特曼（OpenAI CEO）真是个魔术师”。而由华人郭文景创立的Pika Labs 也感受到巨大冲击力，去年11月发布Pika能够生成和编辑3D动画、动漫、卡通和电影，是一款零门槛“视频生成器”，她向媒体透露，团队如今正准备招人，筹备直接冲，直接对标Sora。

今年1月，字节跳动也发布了MagicVideo-V2文生视频模型，通过文生图大模型先生成一张符合当前输入文本的图片，然后使用图片与文本描述利用图生成视频模型生成简单的视频，并使用视频到视频模型，对当前的视频进行超分辨率技术合成，让视频更加清晰细腻。

前几日，阿里云旗下魔搭社区（ModelScope）上线“文本生成视频大模型”。记者从阿里云方面了解到，这是第三方创作者上传的作品，目前由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿，仅支持英文输入。

阿里云平台大模型生成的视频。来源：阿里云

“文本生成视频大模型”已面向公众开放，与Sora类似可直接输入文字即可看到生成的视频效果，目前已公布了9个官方案例。比如“A panda eating bamboo on a rock”，将出现2秒钟“大熊猫在石头上吃竹子”的视频。

不过这一大模型并不成熟，记者以类似的“A panda dancing”（跳舞的大熊猫）为例，生成2秒钟的视频耗时长达32分钟，且输出的视频与“吃竹子的大熊猫”没有太大区别。

↑记者亲测“跳舞的大熊猫”视频。来源：阿里云

北京社会科学院副研究员王鹏告诉记者，尽管国内大模型在近年来取得了显著进展，但与OpenAI、谷歌、英伟达等国际大公司相比，仍然存在一定的技术差距。这些国际大公司在深度学习、自然语言处理、计算机视觉等领域拥有更加深厚的技术积累和研发实力，因此在AIGC领域具有更强的竞争力。

“国内市场的特点和监管政策也可能影响企业的决策。国内企业要迎头赶上，需要在技术研发、人才培养和市场洞察上下功夫，同时还要考虑到国内外市场的差异性和合规性问题。”人工智能行业天使投资人郭涛认为，国内AI企业不妨与成熟技术团队建立战略合作，共享技术资源，针对国内市场需求，进行产品和应用创新，实现弯道超车。

上海机会

“现在上海有些公司正在进行‘从一张图到另一张图生成中间视频’的大模型产品研发，比如上海人工智能企业重孵化器“AI驿站”中的小冰公司、笔墨AI等企业。”钟俊浩介绍说，上海在技术研发、人才培养、数据资源、算力资源等方面存在不小的差距。“追上Sora的能力需要时间，这不仅取决于技术投入和研发速度，还需要考虑行业生态的建设。”

他认为，OpenAI目前在竞争力上一骑绝尘，中国要在AI领域追赶，首先依然靠人才，鼓励行业高密度聚集，避免人才分散，也避免智能算力等稀缺资源的分散。上海也应该发挥全产业链生态优势，鼓励行业结合，尤其是在智能制造、机器人等领域，整合不同行业的技术和市场资源。同时，鼓励相关企业、研究机构和教育机构在特定区域聚集，以促进知识共享、人才流动和资源高效利用。通过政策引导和资源配置，集中力量攻克关键技术难题。

上海在大模型领域的发展正迅速推进，已经成为国内在人工智能和大模型研发上的重镇。

根据《上海市推动人工智能大模型创新发展若干措施（2023-2025年）》，上海将加快打造世界级人工智能产业集群，这些措施包括支持大模型的创新能力、提升创新要素供给能级、推进大模型的创新应用，以及营造一流的创新环境。

目前，徐汇区建立了全国首个到目前为止唯一一个以大模型、产业生态的集聚发展为功能定位的产业生态空间。全国首批备案通过的8个大模型中，上海占据三席，徐汇区集聚了全国接近25%的大模型企业和项目，在全国大模型领域的发展中处于领先水平，尤其在集聚大模型企业和项目方面已经取得了显著成果。

解放日报·上观新闻原创稿件，未经允许严禁转载

作者：查睿

微信编辑：安通

校对：Wing

◢ 猜你喜欢↓↓

更多精彩内容，请点击下载

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

3D 游戏视频超分辨率

相关文章

Leave a Reply Cancel reply