生成式视频的赛道这段时间很热闹。 智谱发布了新产品清影,Meta 推出了分割模型 SAM2,Runway 也带来了 Gen3 的 Turbo 版本。

最让人意外的应该是 Vidu 了,它是最早打出「看齐 Sora」的文生视频产品。

以下视频来源于

Vidu AI

Vidu 的出品方是生数科技,清华系模型公司,是全球第一个用上 Diffusion Transformer 架构的公司 ——Sora 同款架构。

Vidu 这次全面开放了文生视频、图生视频功能,4 秒视频免费用户即可体验,会员可生成 8 秒视频,提供写实和动画两种风格。

新用户注册即获赠 80 积分,每月积分刷新一次,没有 waitlist,不是期货。

传送门:https://www.vidu.studio

注意⚠️ 使用图生视频模式时,不要勾选下方的「描述词优化」,会导致吞任务的情况。

同 prompt 大比拼,Vidu、Runway、可灵谁更强

Vidu 的界面很简单,但是很有巧思 —— 尤其是欢迎界面的小窗设计。

0d88dd50663340aba95ebb4f78d894ce.png

让人联想到老式胶片机的放映窗。

892f8a82ad1d4856af5095e58903e8a7.jpeg

进入后台,也可以发现在边边角角,透露出些迷影情结。比如等待生成时,会看到随机的电影趣闻。

37d921d482ef4590916dcd71823ea52f.gif

看到一系列做好的视频排成一列时,确实很有放映机的感觉。

52e2c9ae20854030a88337a4742fab80.png

回到生成效果上,输出效果 非常非常快,可以说是目前最快的。

582a8b9f2ff74133a19aca5fe134eae8.gif

描述词:上千盏孔明灯飞在夜空中,方向自下而上

这支视频里,方向理解对了,但是数量没理解到。

默认的 4s 视频画质,实测比较糊,提升需要单独过一遍画质提升,但是效果不够明显,到不了高清。

我们拿一条长指令,来自 Sora 当时效果出众的东京街头樱花雨,让 Vidu 做同题竞赛。

040d0776d1114fdaa78fa0270dcc2423.gif

描述词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

同样的题目,我们又拿去给 Runway 用 Gen-2 跑了一遍。

e91022781faa4495a248c469d4c77738.gif

差距不算太大,而且可能是来自于数据集不同造成的。Vidu 给出的成品,很像一些电视新闻中的空景镜头。

Runway 以及 Sora 的成品更像 Youtube 上风景视频里的色调、景别。这应该是各家使用的数据集有所区别。

然后是另一个经典的 Sora 场景:走在夜晚街头的时髦墨镜女人 —— 这次,我们采用图生视频的方式。

1c85f2da5541443898b750c32838addb.gif

额……

就……

这题…… 压轴大题的程度啊,怎么 Runway 也做不好。

eb70121c8783419e91707ea9f32237b7.gif

就……除了背景,其它全都是 bug……

但是!可灵!做到了!

f0b63fe193a24278bcab11074d275bb1.gif

细节还是有问题,但起码没有大崩,不至于好端端的人,走着走着突然发疯了。

Vidu 是动画特长生

在尝试了一个简单的远景 prompt 之后,Vidu 的动画模式明显强出太多,很可能是特殊武器。

5b3dd43b72db4bb3993f27dbbb2398ea.gif

描述词:黄昏的城市,远景,阳光从云层中倾斜着射出,照在高楼大厦上

这一幕像极了新海诚电影《天气之子》,而新海诚的风格恰恰也是动画中的写实派。

我们全部用图生视频的方式,首先用《铃芽之旅》的海报试了一下。

2dd7b289acbf49ce90d6461a7793c2bb.gif

最后结尾崩了,不过中间类似水下的波纹画面感,其实还行,算得上是一种创意发挥。

再用了《天气之子》里面的一个镜头,女主的动作刚好做到一半,可以考察画面的补足能力。

fe8340f1ce464d93a1e84d350bd15ceb.gif

中间有点崩了,不过最后还是完成了转身的动作,也还可以。

最后是《天气之子》里的一个空镜,东京塔和城市里其它的高楼大厦,沐浴在斜阳中。

fad8b96ee9104213a9f815dae1115540.gif

额……

…… 这个实在是圆不回来了……

实测下来,图生视频+写实的组合崩率明显高很多,其次是纯图生,崩率也不低。

回到文生视频 + 动画模式,Vidu 又重新支棱了起来——没想到,这是个动画特长生。

96fd1db1413a4048aa38486d83158ecb.gif

剩下的几十个积分,我们直接使用随机描述词,让 Vidu 自由发挥做动画。

描述词:美国动画风格,在一个灯光柔和的浴室里泰迪熊正在洗澡。它一部分沉浸在泡泡浴缸中,一只爪子拿着电话,另一只爪子搓洗自己的身体。柔和的灯光营造出温暖和惬意的氛围,浴室的瓷砖是舒缓的粉彩色,增强温馨和奇幻的氛围。泰迪熊表情专注,表现出洗澡和打电话的同时进行

效果非常好,而且直出画质很不错,小熊的表情也有变化。

描述词:两个人举起茶杯小口抿了一口。左边的人轻抿双唇后微笑,右边的人专注于他们的茶,形成一种静雅和微妙互动的场景。布景精致,淡雅的颜色、花卉布置和古典家具增强了优雅氛围。

这一支视频还出现在官方的宣传 demo 中,如果 prompt 词没有变化,那么复现得相当不错。

回到写实模式,就又开始不对劲了,明明是视频为什么仿佛静态画面。

描述词:浅蓝色和淡琥珀色为风格的超现实时尚摄影中,一个宇航员穿着太空服走在雾中,背景为迷人的光白色和金色,构成极简主义静物和印象深刻的全景画面。

这可能和生数的背景有关,它在去年上线过创意设计平台 PixWeaver,3D 素材工具 VoxCrat,并且和很多游戏公司合作,提升粗模、底模等的开发效率。

卷长度重要吗?

考虑到成片品质,Vidu 这个抽卡的崩率,有点超出可接受范围了。

如果是 10s、高清,还要带点儿镜头运动,那么宽容一点就宽容一点。目前文生视频产品中,常见的时长是 5-10 秒。

ec0093909f2941cca6455c70b117f37c.jpeg

Vidu 的时长算是偏低的,且并不提供更多的自定义功能,如果画面还大崩,多少影响使用体验。

然而,这并不意味着一昧卷时长是唯一的方式。

Vidu 既然透露出一点点迷影情怀,想来也会知道,自二十世纪七十年代末以来,好莱坞电影就在一路「加速」。

以《速度与激情》这类动作片为代表,平均的镜头时长就在 4-6 秒的区间。在《变形金刚》这样的电影里,平均时长甚至只有 2 秒钟。

短镜头组合起来时,更有冲击力——香港电影也是如此,快速镜头一个接着一个,让人喘不过气来。

吴宇森导演电影《英雄本色》

吊诡的是,10s 以上的长度,对生成式技术来说是巨大挑战,可是真正在电影里不过是一瞬间:贾木许、巴塔斯、安哲、小津安二郎,这些艺术片导演会把一组镜头拉到极限的长度。

因此对于用户而言,在时长、品质和速度方面能够平衡的产品更有意义,有得就有舍弃。

比如可灵的成片效果优秀,定制程度相对高,但是生成速度就相对慢,Runway 也是。

而 Vidu 的出片速度确实很快,称得上是即看即有,可是质量和自定义选项,就顾不太过来了。

以目前文生视频所处的阶段而言,都还在尝鲜和探索,对速度的宽容度或许更高些 —— 只要保证能在后台自动进行,不放鸽子不跳票,刷会儿手机再回来取片,问题不大。

毕竟现在生成式视频的赛道,内卷太严重了,多方取一个平衡,会是更好的策略。

文| Selina

返回搜狐,查看更多

责任编辑:

Leave a Reply

Your email address will not be published. Required fields are marked *