2024年2月16日,OpenAI在某社交平台上发布了一条消息,隆重介绍了自己的新文本转视频模型——Sora。

这个模型可以生成最长60秒的视频,并且在这个过程中,还能够自己切换镜头,甚至给出特写。下面这些,就是视频提示词译文及Sora直接根据提示词英文原文生成的“作品”。

一位时尚的女士走在亮着霓虹灯和广告牌的东京街头。她穿着黑色皮夹克、红色长裙和黑色靴子,手提一只黑色包包。她戴着太阳镜,涂着红色口红。她走路既自信又随意。街道潮湿,地面上的水能够像镜面一样反射色彩斑斓的灯光,路上有很多行人来来往往。
关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
青春深圳已关注
分享视频
,时长00:59

0/0

00:00/00:59
切换到横屏模式
继续播放
进度条,百分之0
00:00
/
00:59
00:59
全屏
倍速播放中
您的浏览器不支持 video 标签

继续观看

全网刷屏的OpenAI视频工具Sora,有多“可怕”

观看更多
转载
,
全网刷屏的OpenAI视频工具Sora,有多“可怕”
青春深圳已关注
分享点赞在看
已同步到看一看写下你的评论
▲来源:OpenAI官网一段3D动画,展现一种又小又圆的毛茸茸生物在一个充满活力的、被魔法环绕的森林中探险。这种生物是兔子和松鼠的混合体,拥有柔软的蓝色皮毛和一条蓬松的带有条纹的尾巴。它沿着一条闪闪发光的小溪跳跃,眼睛充满了好奇。森林里充满了魔法元素:有发光并能变换颜色的花朵,有紫色和银色叶子的树木,以及有类似萤火虫的漂浮的光点。这个生物最终停下来与一群围绕着蘑菇跳舞的小仙子玩耍。这个生物抬头敬畏地看着一棵巨大发光树木,这棵树似乎是森林的心脏。
关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
青春深圳已关注
分享视频
,时长00:08

0/0

00:00/00:08
切换到横屏模式
继续播放
进度条,百分之0
00:00
/
00:08
00:08
全屏
倍速播放中
您的浏览器不支持 video 标签

继续观看

全网刷屏的OpenAI视频工具Sora,有多“可怕”

观看更多
转载
,
全网刷屏的OpenAI视频工具Sora,有多“可怕”
青春深圳已关注
分享点赞在看
已同步到看一看写下你的评论
▲来源:OpenAI官网乍一看这些视频,你可能会以为它们是专业拍摄团队或者是动画公司制作的视频短片。在OpenAI的社区中,也不乏同样感受的网友担心Sora会抢走动画师的饭碗。

▲机器翻译后,来源:community.openai.com

还有一些人担心这样的技术会不会被用来伪造视频,甚至被用来在法庭上作伪证。

▲机器翻译后,来源:X

那Sora是如何生成这样的视频的?它真的无所不能,会抢走人类饭碗吗?

Sora怎么生成视频?

从2022年下半年开始,Midjourney、Stable Diffusion之类的应用已经可以根据文本提示词生成对应的图片了。在2023年9月,GPT 4.0和DALL· E 3结合,也让我们能够用聊天化的方式生成、修改图片。AI生成视频也不是什么新鲜事了。在这次的Sora发布之前,也已经有一些视频生成AI,比如Pika、Stable video、RunwayML等等。但与Sora相比,其他模型生成视频的时长都比较短,而且在摄像机的运动、镜头切换等方面也要弱很多。
关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
青春深圳已关注
分享视频
,时长00:17

0/0

00:00/00:17
切换到横屏模式
继续播放
进度条,百分之0
00:00
/
00:17
00:17
全屏
倍速播放中
您的浏览器不支持 video 标签

继续观看

全网刷屏的OpenAI视频工具Sora,有多“可怕”

观看更多
转载
,
全网刷屏的OpenAI视频工具Sora,有多“可怕”
青春深圳已关注
分享点赞在看
已同步到看一看写下你的评论
▲来源:Gabor Cselle发布的X消息

那么,Sora又是如何生成视频的呢?

OpenAI发布了一份Sora的技术报告,在报告中提到“Sora是一个扩散模型”。

▲Sora是一个扩散模型,来源:OpenAI官网

扩散模型本身很复杂,我们不去讲具体的细节,仅仅通过一个简单的例子,大致理解扩散模型的思路。假如我们现在有一张狗狗的照片,我们可以一步步给这张照片增加噪点,让它变得越来越模糊,最终会变成一堆杂乱的噪点。

添加噪声与去除噪声,来源:参考资料[3]

假如把这个过程倒过来,对于一堆杂乱无章的噪点,我们同样可以一步步去除噪点,把它还原成目标图片,扩散模型的关键就是学会逆向去除噪点当然了,扩散模型不仅可以用来生成图片,还可以用来生成视频。比如,Sora的技术报告中提到,OpenAI对视频数据进行了一些转换处理,让视频数据可以直接用来训练模型,从而让Sora能够直接根据提示词生成视频。

▲Sora对视频数据进行转换处理,来源:OpenAI官网

Sora强大的视频创作能力

按照OpenAI的说法,Sora“继承”了GPT对文本的理解能力,能够根据提示词生成出高质量的图片和视频,并且能够对视频进行向前或者向后的拓展。比如,可以基于同一个视频开头继续拓展,延伸出不一样的结尾。或者是从不同的开头引入,最终汇聚到同一个结尾。

▲这三个视频开头最终都会走向同一个结尾,来源:OpenAI官网

另外,Sora不仅可以根据文本生成视频,也可以直接输入图片或者视频,对图片和视频进行编辑调整。

比如可以将这辆行驶在普通道路上的汽车变得更“赛博朋克”一些。

▲来源:OpenAI官网

另外,Sora也表现出了一些之前未曾想到的本领,比如它可以跟随着对象移动镜头,并且在移动镜头转换角度的时候,依然能保持周围的景象的合理、完整。

关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
青春深圳已关注
分享视频
,时长00:17

0/0

00:00/00:17
切换到横屏模式
继续播放
进度条,百分之0
00:00
/
00:17
00:17
全屏
倍速播放中
您的浏览器不支持 video 标签

继续观看

全网刷屏的OpenAI视频工具Sora,有多“可怕”

观看更多
转载
,
全网刷屏的OpenAI视频工具Sora,有多“可怕”
青春深圳已关注
分享点赞在看
已同步到看一看写下你的评论
▲来源:OpenAI官网

“强大的Sora”仍有一些缺陷

虽然Sora展现出了强大的能力,但现阶段它还不够完美。

在Sora的技术报告中也承认,现阶段Sora生成的视频存在一些缺陷。比如,下面这个“考古工作者们挖掘出一个塑料椅”的视频片段里,这个塑料椅显然有点不遵守客观的物理规律。

关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
青春深圳已关注
分享视频
,时长00:20

0/0

00:00/00:20
切换到横屏模式
继续播放
进度条,百分之0
00:00
/
00:20
00:20
全屏
倍速播放中
您的浏览器不支持 video 标签

继续观看

全网刷屏的OpenAI视频工具Sora,有多“可怕”

观看更多
转载
,
全网刷屏的OpenAI视频工具Sora,有多“可怕”
青春深圳已关注
分享点赞在看
已同步到看一看写下你的评论

另外,下面这个玻璃杯破碎的过程也不那么“科学”——在杯子破裂之前,杯子里的液体就已经流出来了。

关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
青春深圳已关注
分享视频
,时长00:08

0/0

00:00/00:08
切换到横屏模式
继续播放
进度条,百分之0
00:00
/
00:08
00:08
全屏
倍速播放中
您的浏览器不支持 video 标签

继续观看

全网刷屏的OpenAI视频工具Sora,有多“可怕”

观看更多
转载
,
全网刷屏的OpenAI视频工具Sora,有多“可怕”
青春深圳已关注
分享点赞在看
已同步到看一看写下你的评论

它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。

该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。

所以,Sora还有很多需要完善的地方。但毫无疑问,目前Sora展现出来的能力已经说明了,这是一条非常有前景的道路。

Sora安全吗?

会取代人类吗?

这几天,Sora生成的视频刷爆了许多人的朋友圈,人们除了感叹Sora的厉害,同样也展现出了担忧,这些担忧集中在两个方面。第一个担忧是:Sora生成视频的能力实在是太厉害了,如果这样的技术被用来造假,岂不是太可怕了?未来我们怎么知道看到的视频是真的还是假的?而另一个担忧主要来自视频行业的从业者,如果Sora这样的模型普及开来,视频行业从业者是不是都要丢了饭碗?

▲网友直呼game over,工作要丢了,来源:量子位

先说说安全问题。其实,OpenAI也考虑到了Sora可能带来的安全问题。目前,Sora仅对少数人开放,在确保它不会被用来做坏事之前,Sora是不会向大众开放的。那Sora是否会代替人类视频工作者?答案是有可能。比如,今年1月,《好莱坞报道》进行了一项针对300名娱乐行业领导者的调查,有四分之三的受访者表示AI会减少未来的工作岗位,未来3年内大约会有20多万个职位受到影响。而Sora优异的表现会加重这一影响。但换一个角度想,每一次新兴技术的出现在带来威胁的同时也会带来新的机会。包括Sora在内的视频生成AI只是一个工具,视频的创意来源还是需要人类提供。Sora或许能够帮助人类更高效地生产视频,同时,也让每一个普通人都有机会制作自己的创意视频。

参考资料

[1]https://openai.com/research/video-generation-models-as-world-simulators

[2]https://openai.com/Sora

[3]https://scholar.harvard.edu/binxuw/classes/machine-learning-scratch/materials/foundation-diffusion-generative-models

[4]https://www.hollywoodreporter.com/business/business-news/ai-hollywood-workers-job-cuts-1235811009/

END

编辑:杨楚宜

审校:钟  质审核:刘 昊来源:科普中国、量子位、果壳▼关注”青春深圳”微信、抖音、快手、B站、视频号

Leave a Reply

Your email address will not be published. Required fields are marked *