最近,国内的视频 AI 们,全都扎堆上线了。
智谱的清影 AI 上线还没几天,国内另外一个视频 AI 界的大神 Vidu 也跳出来了,不用排队,免费就能用。
Vidu 背靠的是清华系团队,他们早在 Sora 之前,就抢先发了一篇把扩散模型和 Transformer 模型融合在一起( Sora 用的也是这个思路 )的论文。
而且因为清华小分队早发了两个月,当年的计算机视觉顶会 CVPR 2023 还以 “ 缺乏创新 ” 的由头,拒了 Sora 的 DiT 论文。
虽说最后, Vidu 的宣传视频出来得晚了些,但效果在彼时的一堆视频 AI 里,还是很扎眼的存在,各种视角、各种场景,好像都能应对自如。
所以这次它宣布开放使用后,知危第一时间就上手了一波。
到底有没有宣传视频里那么厉害,跟咱看看就知道了。
先来试试 Vidu 文字生成视频的效果,这一回合我们拉来了体感还不错的可灵 AI 来做对比。
第一招,我们来测测它们各自对提示词的理解程度,看能不能把所有要素都展示出来。
提示词:
写实风格,镜头慢慢推进,在一个雨天,一对情侣坐在餐厅靠窗的位置吃饭。
Vidu 这边在生成的时候,会贴心给一些影视方面的小百科,而且速度也挺麻溜。
这颇有电影感的画面,雨天、情侣等要素也挺齐全,唯一的缺点没 get 到提示词里的 “ 吃饭 ”
轮到老将可灵 AI 这边,没想到一上来就有点翻车了,照理说它应该挺擅长吃东西的画面,但这次不知道咋了,两个人嘴巴全都变形了,不过要素倒还挺全。
紧接着,我们又同时给可灵和 Vidu 喂了一组超现实的提示词,考验下视频 AI 厂商们都爱宣传的 “ 电影感 ” 。
让它们生成一组 “ 末日时,一名战士破土而出 ” 的画面。
Vidu 生成的效果是这样的,只能说中规中矩,画面的质感一般般,而且也没给战士一个露脸的机会。
反观可灵 AI 这边,对场景的处理则更加细腻一些,不仅画面的质感、清晰度上去了,连走路会扬起灰尘这种细节,它都能捕捉到。
除了常规风格外, Vidu 这次还整出来一个专门的 “ 动画风格 ” ,据说效果还不错。那接下来,我们就用这个风格来给它和可灵搭个擂台。
提示词:
动漫电影风格,从侧面拍摄,镜头聚焦在面部,夜晚,一个长发女人坐在公交车靠窗的位置,眼睛望向窗外不断变化的街景,忽明忽暗的光线打在她的脸上,画面弥漫着孤独感 。
Vidu 这边确实也没让咱失望,这女主角真有点日漫那味了,而且咱也能透过窗户,看到外面一闪而过的景象。
这波可灵 AI 又开始掉链子了,提示词里面的 “ 动漫电影风格 ” ,它直接给忽略掉了,而且公交车虽然在往前走,但外面的街景的变化有点不太明显。。。
既然是动漫风格,那肯定少不了测试想象力的环节,考考它们各自是如何处理现实不存在的场景的,比如 “ 小男孩突然化身大橘猫 ” 。
提示词:
宫崎骏画风,一个可爱的小男孩正在跑步,跑着跑着突然变身成一只可爱的大橘猫
有一说一, Vidu 的效果确实还不错,抛开画质这个老毛病,整段视频基本看不出什么太大破绽,变身的过程也无比丝滑。
至于可灵 AI 嘛,可能类似的场景是真撞到它的枪口上了,看生成的视频,可能它连提示词本身都没太理解。
而且,我们在试的时候发现,这次的 Vidu 还有市面上能用的视频 AI 都有一个通病,那就是不能理解物理世界规律。
像是让 Vidu 和可灵生成一段 “ 两只猫咪打乒乓球 ” 的视频,那球可以说是满天乱飞,而且看球也都不像是乒乓球的样子。。。
有意思的是,我们还用 Vidu 官方演示里的提示词,原封不动地喂给了它,结果出来的视频,看得人觉得有些诡异和不舒服,不如官方演示的效果好。
不过整体来看, Vidu 的效果还算是可圈可点,最起码在动漫,还有一些涉及到想象力的画面中,表现得还算不错。
除了能文生视频外, Vidu 这波也还新增了图生视频的功能,我们发现,这简直就是恶搞人士的福音。
随便上传一个表情包上去, Vidu 能立马让它动起来,看着效果也都还不错。
而且我们还可以自己选,是让上传的图片作为第一帧,还是只参考就行了。
就比如我们上传一张扎克伯格的图片给 Vidu 参考,再补充点提示词,就可以假装小扎已经站在拳击台上,准备迎战马斯克了。
只不过这人脸有脸参考不到位,就只有上半张脸像小扎。。。
上传一张马斯克的照片,也能提前帮他实现太空梦。。。
总之, Vidu 就跟市面上一众能用的视频 AI 差不多,可以生成效果好的视频,有的视频不仔细看,几乎就看不出 AI 的痕迹。
但它的缺点也很明显,不够稳定,视频做不长,这也是这一类 AI 面临的通病了。像是 Vidu 免费用户只能体验到 4s 的视频,就算氪了每月 8 刀的金,最长也只有 8s 。
不过这也算是视频类AI 的商业化初尝试了,毕竟训练和推理的成本就摆在那里,像是 Adobe 之前,买了 100 个用来训练的视频片段,平均一分钟得花两美元。
而收钱,多少也能帮前期优化、提升模型,分担一点经济上的压力。。。
当然 Vidu 背后的公司生数科技,也不只把所有砝码都压在了视频 AI 上。他们旗下还有专门面向 B 端的各种多模态模型,涵盖了文字、图片和 3D 模型等,游戏制作、影视后期等都是未来的商业化场景。
之前他们就靠着图片和 3D 模型,攒了好几亿的家底,而且就在上个月月初,生数科技又完成了数亿元的 Pre-A 轮融资,百度也参与领投了。
总的来说,视频 AI 领域是越来越热闹,甚至已经有点当初百模大战的意味了。可以预见的是,未来这些厂商们还会在 AI 视频长度、质量上不断加码。
对了,当初挑起这场 “ 战争 ” 的 Sora ,好像好久都没新消息了。。。