Sora颠覆！AI首生成1分钟视频，打破物理规律，860亿估值背后的大秘密…

文章主题：

🎉【AI新突破】🌟2月16晨，全球瞩目的OpenAI推出创新之作——Sora，一款打破常规的AI文生视频模型，长达1分钟的多镜头叙事，犹如电影级别的镜头感，惊艳亮相！🎬💡《纽约时报》与彭博社齐声报道，这背后的秘密交易价值860亿，标志着AI领域的又一里程碑。🚀那么，Sora何以风靡？它如何颠覆视听体验？未来将带来哪些变革？我们不妨深入探讨。🌍这项技术的发布无疑将推动人工智能在视频创作领域的革新，为内容创作者打开无限可能，同时也对娱乐产业和商业模式产生深远影响。💼💡欲知更多细节，敬请关注OpenAI官网动态，让我们共同见证科技与艺术的交融！🌐#Sora #OpenAI #AI视频创新

图源：Sora

能生成60秒视频且对“物理规律”有超强学习能力

🌟【视频揭秘】Sora技术力MAX！🚀60秒流畅大秀，多角度镜头切换天衣无缝，每一帧都细腻到极致！ klientele, 您准备好了吗？👀👀 从Sora的演示中，我们看到它对光影反射、动态运动和镜头移动的掌控堪称艺术。每一道光线，每一个微动，都精确到让人心跳加速！🎯🔍 更令人惊叹的是，OpenAI的公开片段揭示了Sora无与伦比的学习能力，毛发飘逸如风，水波涟漪自然流畅，仿佛遵循着宇宙的基本法则。它对物理规律的理解，超乎想象，让人赞叹不已！🌌👉 无论是专业摄影还是科技爱好者，Sora都无疑将成为您创作路上的得力助手，它的每一个细节都透露出匠心独运的设计和卓越的技术实力。想要体验未来感十足的视觉盛宴？赶快一探究竟吧！🎬#Sora技术 #OpenAI展示 #光影捕捉大师

图源：Sora

OpenAI究竟是怎么做到的？其官网介绍，通过一次性为模型提供多帧的预测，他们解决了一个具有挑战性的问题。

总体而言，Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构。展开讲，在视觉数据上，OpenAI把视频和图像分解为较小的数据单元Patches（补片），每个patches相当于GPT中的一个token（词元）；在语言理解能力上，采用了DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。另外，Sora还能将现有的静态图像转化成视频，精准赋予图像中内容以生动的动作；模型还能扩展现有视频或补全缺失的帧。

简单概括下来，Sora功能包括“文生视频、图生视频、扩展原视频”，长度最高可达60秒，视频更高清，细节更逼真，表现力更丰富。

Sora生成的视频截屏

技术报告揭秘Sora 6大优势

在Sora推出后不久，OpenAI发布了这款新工具的技术报告。《每日经济新闻》经过对报告的梳理，总结出了Sora的6大优势。

①准确性和多样性

Sora的显著特征之一是能够准确解释长达135个单词的长提示。它可以准确地解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。它涵盖了广泛的主题，从人物和动物到郁郁葱葱的风景、城市场景、花园，甚至是水下的纽约市，可根据用户的要求提供多样化的内容。

②强大的语言理解

OpenAI利用Dall-E模型的re-captioning（重述要点）技术，生成视觉训练数据的描述性字幕，不仅能提高文本的准确性，还能提升视频的整体质量。此外，与DALL·E 3类似，OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

图源：Sora

③以图/视频生成视频

Sora除了可以将文本转化为视频，还能接受其他类型的输入提示，如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。

④视频扩展功能

由于可接受多样化的输入提示，用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型，Sora还能沿时间线向前或向后扩展视频。

⑤优异的设备适配性

Sora具备出色的采样能力，从宽屏的1920×1080p到竖屏的1080×1920，两者之间的任何视频尺寸都能轻松应对。这意味着Sora能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前，Sora还能以小尺寸迅速创建内容原型。

⑥场景和物体的一致性和连续性

Sora可以生成带有动态视角变化的视频，人物和场景元素在三维空间中的移动会显得更加自然。Sora能够很好地处理遮挡问题。现有模型的一个问题是，当物体离开视野时，它们可能无法对其进行追踪。而通过一次性提供多帧预测，Sora可确保画面主体即使暂时离开视野也能保持不变。

Sora生成的视频中，主角脸上的雀斑清晰可见。图片来源：OpenAI官网

Sora模型的实际生成效果仍是未知数

OpenAI官网称，Sora模型可能难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系。

在OpenAI发布的技术报告中有一段Sora模型生成的错误视频，展示了桌上的水杯会先从底部流出果汁，然后沿着错误的方向和角度倒在桌上。

根据OpenAI官网的描述，Sora模型在模拟复杂场景时仍会出错，并不总能准确呈现物体状态的改变。比如，它不能准确地模拟许多日常的基本物理过程，像是玻璃破碎过程、吃食物后表面没有咬痕、凭空生成并不需要的重复或变形画面等。

图源：Sora

此外，Sora模型的安全性、对于有害内容的把控、对于偏见和歧视内容的筛查，目前仍处于摸索当中。Sora模型目前还处于测试阶段，预计再经过一段时间的安全测试和用户反馈后才会正式提供服务，因此还无法了解Sora模型的实际效果。

图源：Sora

或对影视、广告、游戏、新闻、教育、VR\AR等行业产生深远影响

Sora会给人类带来哪些影响？

北京邮电大学人机交互与认知工程实验室主任刘伟表示，Sora在短期内可能会对短视频制作、影视行业以及视觉交互界面应用产生较为显著的影响；从长期来看，这项技术会为自动驾驶、数字仿真、场景模拟等领域带来改变。

中国企业资本联盟副理事长柏文喜表示，Sora作为一种强大的视频生成工具，可以极大地降低视频制作的门槛和成本，使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、VR\AR等诸多行业产生深远的影响，具有广泛的应用前景。

例如在影视行业，人人都是导演的时代即将来临，Sora可以快速生成逼真的场景和特效，帮助制作人员更好地实现创意，提高制作效率。在广告行业，Sora可以根据品牌需求和营销目标，快速生成高质量的广告。

内容创作的方式变革后，文学创作领域也将迎来复兴，小说可以直接生成动漫、电视剧。视频内容集中爆发，自媒体行业也将迎来重新洗牌。随着技术的不断深挖，未来Sora会将在更多领域得到推广应用。

技术的变革是把双刃剑。也许有人会问Sora的出现会对哪些岗位产生冲击？

从上述专家的分析来看，目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位，Sora能够自动或半自动地生成视频，这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节，这些工作也可以通过AI技术进行自动化或半自动化处理。再比如新闻主持人这一岗位，Sora可以根据输入的文本自动生成视频新闻报道，一些简单的新闻报道任务可能会被Sora所取代。此外，游戏动画师、广告创意和设计岗位、内容创作者等岗位都有可能受到冲击。

图源：Sora

大模型的竞争正在加剧

AI的世界，日新月异。

与其他文生视频大模型仅能生成3至4秒的视频相比，Sora模型生成的60秒视频实现了明显提升。

不过，OpenAI虽然遥遥领先，却也不是完全没有压力。近几个月来，科技巨头们也纷纷宣布将带着自己的模型进入该领域，例如字节跳动的MagicVideo-V2和谷歌的Lumiere。

值得关注的是，就在Sora发布的同日，谷歌也发布其最新力作——Gemini 1.5 Pro，其将稳定处理上下文的上限扩大至100万Tokens（词元），这代表它能一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

大模型的竞争正在加剧。

（中国科技网综合蓝鲸财经、新民晚报、每日经济新闻、上海证券报、经济观察报、潇湘晨报、北青网、潮新闻等）

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

发表回复 取消回复

发表回复取消回复