三个月前,生数科技联合清华大学正式发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。发布时的视频效果更是与Sora不相上下,因此被网友称为“国产最强Sora”。
但那之后,Vidu一直没有对外开放。直到7月30日它终于正式上线,并且无需排队全球用户可直接邮箱注册后上手体验。
根据官方信息,此次Vidu开放文生视频、图生视频两个功能,提供4s和8s两种时长选择,分辨率最高达1080P。在速度上,生成一段4秒片段的实测推理速度只需30秒,这是目前全球同类产品的最快速度。
那么话不多说,跟大家分享一下我们全方位的一手测评体验。
本次测评主要从以下五个维度进行评价(每个维度5分,满分25分):
稳定性:视频是否会出现画面变形、撕裂或其他异常现象; 提示词理解:输入的提示词是否能被模型完整准确地理解和表达; 流畅度:画面中的动作是否自然连贯,整体观感是否顺畅; 一致性:视频内容的前后连贯性和一致性,场景转换是否平滑,各元素之间是否协调统一; 物理还原度:光影效果、液体流动是否自然,交互行为是否符合物理规律。我们直接看实测的案例:
1
视频实测案例
巴黎奥运会现场
参考图片:
提示词:Paris 2024 Olympics opening ceremony, set along the Seine River. The Eiffel Tower stands majestically in the background, bathed in the warm light of the setting sun. The riverbanks are lined with enthusiastic spectators, seated in grandstands adorned with colorful Olympic banners.
提示词:Paris 2024 Olympics opening ceremony,Severalboats, decorated with national flags and athletes, navigate the Seine, adding to the festive atmosphere. The bridges spanning the river are also crowded with onlookers。
同一张参考图,第一张能看到每艘船的水波纹都是动态的,随着镜头的拉长也保持着较高的一致性。 在改变提示词将关注点放在船上以后,在光影方面依然保持着参考图的效果,每艘船的移动也符合物理规律,如果不是周围的人物被模糊,一眼看过去很那分辨是实拍还是AI生成。
第一人称沉浸式游戏体验
提示词:Experience an immersive first-person perspective in a shooting game set within a millennium-themed corridor, adorned with neon lights and futuristic decorations reminiscent of Cyberpunk 2077. The players hands extend forward, gripping a sleek, high-tech firearm aimed at an adversary.
游戏人物头上的名条、血条,还有模糊的UI界面,第一眼看上去很像一个游戏的实况画面。高速移动中的场景也符合物理规律,甚至还有进入墙边掩体的动作,不管是画面场景还是人物动作都非常符合现实规律。甚至发射子弹之后,枪械上的弹药指示数字都会相应的减少。美中不足的是还是能看到有一些画面的变型。
延迟摄影镜头
提示词:Observe the transformation of a lone chrysanthemum bud as it gradually unfurls into a fully bloomed flower against a simple, white backdrop. The time-lapse sequence isolates the chrysanthemum, highlighting its intricate changes from a closed, compact bud to an expansive, radiant blossom.
电影感人物微表情
提示词:一位少女站在图书馆的书架前,阳光透过窗户洒在她身上,金色的发丝微微发光。她的眼睛专注地抓住手中的书页,长长的睫毛轻轻颤动。手指轻轻翻动书页,嘴角不自觉地扬起,沉浸在文字的世界里。
人物和背景环境生成都比较稳定,就连手指这些细节也未发生变形;对于提示词能够充分的理解,并除了手指翻动书页的动作外,其他元素基本全展现画面中,且动作非常的流畅;对于微表情的处理也非常的细节且合理;画面整体动作幅度不大,一致性保持较好;另外对于光影等物理规律也处理的很恰当。
动物特写
提示词:一只柯基犬悠闲地在沙滩上,戴着一副时尚的墨镜。突然,一只白色的贵宾犬优雅地走进了画面。它的毛发在阳光下闪着银光,步伐轻盈,仿佛一位高贵的公主在巡视它的领地。
两只狗狗生成稳定性好,狗狗的形象也均符合提示词中的狗狗的品种,且一致性高,毛发细节也比较真实;对于提示词的理解也比较全面,只不过顺序跟提示词不太一样;画面细节流畅;运动方向和光影变化都较为符合物理规律。
动漫风格
提示词:汤姆猫戴着厨师帽,正忙着做蛋糕。杰瑞鼠偷偷溜进厨房,踮起脚尖,悄悄往蛋糕里塞了一颗炸弹。汤姆猫毫无察觉,继续忙碌。炸弹突然爆炸,蛋糕变成了一团烟雾。
整个视频过程无明显变形,剧情流畅,但汤姆猫的眼睛有些画面有些许变形,猫和老鼠也均全程保持角色一致;视频生成出来漏掉了杰瑞鼠塞炸弹的细节,其余基本符合提示词中的要求;除了杰瑞在蛋糕爆炸的时候突然闪现,其余细节均比较符合物理规律。
(PS:此视频中除了杰瑞背后的老虎纹,其余角色形象、剧情画风简直完美复刻了《猫和老鼠》,文生视频就可以做到高度形象一致,这文字的理解能力还是很强的 。)
人物变身切换
提示词:草帽海贼团的船长蒙奇·D·路飞站在一片荒凉的战场上,画出他黑发逐渐变成金色的过程,周围爆发出耀眼的金色光芒。
丝滑完成变身的切换全过程,稳定性、一致性以及视频流畅度高;光影变幻效果自然且符合物理规律,随着头发的变色,连后背都被照亮了;视频生成基本符合提示词中的内容,只是不够符合路飞的形象。
超现实风格
提示词:在一个宽敞的浴室里,一只造型如美国动画角色的泰迪熊正在洗澡。它部分沉浸在浴缸中,一只爪子拿着电话,另一只爪子在搓洗自己。浴室的瓷砖是缓冲的粉色彩色,增强了温馨和奇幻的节奏。泰迪熊的表情专注,表现出洗澡和打电话的同时进行。
视频的稳定性和角色一致性均比较高,视频画面无卡顿较为流畅;除了缺失了“用另一只爪子在搓洗自己”动作外,对提示词理解基本到位;其中视频中的浴缸中的水与泰迪熊的运动方向基本契合,电话线拉长时线圈逐渐展开也比较符合物理规律。
搞怪剧情
提示词:一个穿黑色棉袄的大爷,在村口用黑色的锅做爆米花。锅里突然爆炸,从锅里炸出了一个奥特曼。
视频角色一致性高,对于提示词中的内容可以完全理解;有些画面略有卡顿,流畅性一般;视频中的大爷衣角有一帧发生变形,视频稳定性一般;人物动作和影子以及爆米花降落的方向较符合物理规律,但爆米花爆炸的火花稍有不合理。
物体的快速移动
提示词:夕阳下,一辆银色的汽车在蜿蜒的山路上飞驰。车灯如利剑般划破暮色,车身在光影中闪耀着金属的玻璃。驾驶者紧握方向盘,眼神坚定,速度表指针不断攀升。
视频的稳定性、流畅度和一致性均比较高,镜头的拍摄方式也非常具有电影感;对于提示词理解度一般,缺少了一些画面特写细节,可能与视频长度有限相关;视频中汽车的运动过程以及车灯灯光的变化也均符合物理规律。
艺术二创
提示词:图中的人物拿出了一颗向日葵,并开始嗑起了瓜子。
视频中人物和梵高版特朗普原图相似度89%,在视频中人物基本无变形一致性较高,画面生成也比较稳定,画风也是完全参考了梵高的风格;视频画面 也基本呈现出了提示词中的内容。
经典动漫
提示词:在一片荒凉的战场上,龙珠里的卡卡罗特站在破碎的地面上,周围是满目疮痍的景象。他紧握双拳,脸上流露出坚毅的表情,周围爆发出耀眼的金色光芒。
视频基本完全展现出了提示词中的景象,卡卡罗特的面部表情细节也很还原,人物动作自然流畅,画面稳定,角色也始终保持一致,唯一不足是画质略差。
提示词:草帽海贼团的船长蒙奇·D·路飞站在阳光下的甲板上,背景写着ONE PIECE,戴着标志性的草帽,露出自信的微笑。他深吸一口气,眼神坚定,目标锁定在前方的敌人,挥出拳头。
路飞的形象完美还原,并且在视频中一致性保持的很好;画面生成也很稳定,流畅,最后的转场更是突出了《海贼王》动漫的画风;但是提示词中的背景文字在视频中没有体现。
1
Vidu特点总结
生成视频速度快,实测中的确可以保证在30秒左右,生成一个4秒视频。 这与同类的生成视频产品相比更快目前也比较稳定。全量上线后是否会出现排队等有待观察,但在我们的测试体验里感觉很丝滑。 可选择视频风格,除官方推出的支持写实和动漫两种风格外,还可在提示词中添加不同视频风格。其中动漫风格的效果比较让我们惊艳,可以看出来它可能在动漫风格的生成上做了特定的优化。这也被Vidu此次着重强调,是重要的全新功能之一。 图生视频可选两种模式,分别是“参考起始帧”和“参考人物角色”。 鉴于目前很多用户对视频生成类产品是抱着玩一玩的体验心态,这种设置与上面提到的动漫风格一样,目的都是在给用户增加可玩性。我们在两天的测试里也是玩的比较上头。 角色一致性高,文生视频及图生视频中的“参考人物角色”能够保持较高的一致性。 语义理解能力强,基本能够还原提示词中大部分元素和动作。 角色一致性和语义理解其实是最能体现底层模型基本功的地方。作为最早在模型架构上探索扩散模型与Transformer结合的团队,这一点看起来是信心满满。 审美在线,动作幅度大。在今天层出不穷的“Sora”里,我们测来测去其实有些麻木了。 但这次用完Vidu还是感觉有点意思,一方面是上面提到的这些实测感受和功能的能力。另一方面是Vidu的审美还是挺在线的,生成的视频让人感觉比较舒服。质感不错。同时,在上面类似跑车等视频里,运动主体的动作幅度相比过往一些模型大了不少,同时能保证依然流畅。这对于在时长有限的情况下生成的视频的质量很关键。1
硅星GenAI打分:
稳定性:3 提示词理解:4 流畅度:4 一致性:5 物理还原度:5总分21分,在目前推出的文生视频产品中妥妥站在第一梯队。在我们的测评中,大家都玩的停不下来,现在大家也可以在 www.vidu.studio 上手玩起来了。
责任编辑: