清华团队出手非凡：最强国产Sora视频模型一鸣惊人！

提供1000+款AI效率工具丨AIEVA.CN丨欢迎访问

AI奇点网-AI工具特刊丨4月29日

OpenAI“惊世骇俗”的Sora视频生成模型推出还不到一个季度，中国首个长时长、高度一致性、高动态性控制的视频大模型「Vidu」诞生。

虽然一度落后，但我们快马加鞭就赶上了！

日前，由清华大学教授、生数科技首席科学家朱军领衔的「Vidu」团队对外宣布，国内首个纯自研的长时长、高一致性、高动态性控制的视频大模型正式亮相。

废话不多说，直接上链接：

重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

生数科技是一家中国人工智能大模型研究企业，去年初成立，是目前国内估值最高的「Sora概念」创业公司。

在Sora发布后，今年3月中旬，生数科技CEO唐家渝对媒体透露：“年内目标要达到跟Sora一样的效果。”

现如今，首个「Vidu」模型版本亮相，在一致性与时长方面都给人非常眼前一亮的印象。

AI视频时长突破10秒大关

在去年，AI视频通常只能生成3~4秒。

「Vidu」生成的视频最长可达16秒，并且画面稳定流畅不闪屏，细节丰富、逻辑连贯。

即便像“海上飘荡的小船”这种画面，也没有出现穿模、鬼影、运动不符合物理的常见Bug。

话说回来，Sora之所以让世人感到惊艳，归根到底是因为AI视频注入了「镜头语言」。

生数科技的起点非常高~

朱军博士在发布会现场直接将「Vidu」与行业领导者的文生视频模型的效果进行对标。

他直言，「Vidu」在16秒内的视频创作与语义理解方面表现非常突出。

在发布会上，Vidu团队展示同款提示词直接对标Runway Gen-2与Pika。

并且公布了「Vidu」生成Sora官方案例的视频效果对比，可圈可点。

让我们放大动图仔细来看，每一台电视机都有独立的画面内容。

「Vidu」的本质仍然一款文生视频模型，采用的是“一步到位”的生成方式，与Sora一样可以直接输出高质量的“长视频”。

在底层算法实现上是基于单一模型完全「端到端」生成，与国内其他阿猫阿狗通过关键帧插帧增长的处理方式完全不同。

五大特色，国内遥遥领先

在性能参数方面，「Vidu」支持一键生成长度为16秒、1080P分辨率的高清视频内容。

该视频模型具备5大亮点：

模拟真实物理世界富有想象力多机位镜头语言高时空一致性理解中国元素等特色

模拟真实物理世界

「Vidu」能够生成复杂、细节丰富的现实世界场景，并且符合物理规律，例如：合理的光影效果、细腻的人物表情等。

比如输出一辆SUV汽车加速行驶在陡峭土路上的场景，感觉就像是无人机实拍。

富有想象力

「Vidu」能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

比如一艘画室里的一艘船驶向镜头”生成的视频。

多机位镜头语言

「Vidu」能够生成复杂的动态镜头，不再局限于简单的推、拉、移等基础镜头，而是能够围绕单一主题实现远景、近景、中景、特写等不同镜头取景切换，实现多样化的长镜头、追焦、转场等效果，给视频注入丰富的镜头语言。

比方说，生成一间海边的度假小屋宣传视频：阳光沐浴着房间，镜头缓慢过渡到阳台，俯瞰着壮阔的大海，最后镜头定格在大海、帆船和梦幻的云彩。

高时空一致性

在16秒的时长上始终保持着连贯流畅的镜头语言，随着镜头的移动，角色与场景在时间、空间能够保持高度一致性，不会出现掉帧或者穿模、模糊。

比如这一幅《戴珍珠耳环的女孩》经典画作的「猫咪版」变体创作，蓝眼睛的大橘取代了原本的女主，缓缓地转头回眸。

理解中国元素

作为一款国产视频大模型，「Vidu」比Sora等国外模型，更能充分理解并生成具有中式鲜明特征的画面元素，例如：熊猫、龙等。

这是「Vidu」根据提示词生成湖边弹吉他的熊猫。将现实主义与艺术创作相结合，熊猫沐浴在阳光下光影也十分自然。

两个月快速突破的秘籍

要比拼「卷」的功力，OpenAI还真不一定卷得过中国人。

生数科技的核心团队来自清华大学人工智能研究院的班底。首席科学家由清华人工智能研究院副院长朱军领衔；CEO唐家渝出自清华大学计算机系。

唐家渝在3月份面对记者时，还显得并不那么自信，当时他给出赶上Sora的时间表，“很难说是三个月还是半年”。

如今实际还不到2个月，团队就实现了重大突破，背后是如何做到的？

据了解，选对技术路线最为关键——

「Vidu」底层架构基于完全自研的U-ViT架构，该架构由生数科技团队在2022年9月提出，甚至早于Sora采用的DiT架构。并于2023年3月，也就是一年前完善了架构的框架设计。

U-ViT架构是全球首个基于Diffusion扩散模型与生成式AI基础架构Transformer融合的视频生成架构。

Transformer被认为是当今大语言模型的理论基础，训练参数量越大，则效果越好，而Diffusion常用于AI图像与视频生成。

早在2023年3月，该团队就将U-ViT架构用于AI图像生成，这比近期刚刚切换到DiT架构的知名开源AI绘图工具Stable Diffusion 3早了一整年。

因此，「Vidu」复用了生数科技在图文生成任务的许多累积经验，快速跑通了视频生成的训练流程。在保持高效训练效果的同时，GPU算力开支降低80%，训练速度累计提升40倍。

「Vidu」的横空出世，让我们对于中国AI视频国产化技术路线落地有了更多的期待！

【本文来自丨AI奇点网丨全网账号同名丨欢迎搜索关注】

AI奇点网丨提供1000+款AI效率工具丨AIEVA.CN丨欢迎访问

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply