生数科技发布视频大模型「Vidu」引关注清华团队国产Sora火了

4 months前 0 0

【环球网科技综合报道】近日，生数科技联合清华大学发布了视频大模型「Vidu」，引发了广泛关注。这一模型支持一键生成长达16秒、分辨率达1080p的高清视频内容，画面效果接近Sora，并且在多方面表现出色，包括镜头语言、时空一致性、物理模拟等方面，让人惊叹。背后的团队仅用了两个月的时间就取得了这一突破。

与Sora的对标

在视频生成方面，「Vidu」与Sora进行了全面对标。从视频长度、时空一致性、镜头语言、物理模拟等方面看，「Vidu」已经逼近了Sora的水平。生成的视频长度达到了16秒，画面流畅，细节丰富，逻辑连贯，呈现出高度接近真实世界的效果。

镜头语言注入

在视频制作中，镜头语言是非常重要的概念，能够帮助表达故事情节、揭示角色心理、营造氛围等。现有AI生成的视频在镜头语言方面往往表现单调，而「Vidu」则通过生成转场、追焦、长镜头等效果，成功注入了更加丰富的镜头语言，提升了视频的整体叙事感。

时空一致性保持

视频画面的连贯和流畅性取决于人物和场景的时空一致性。「Vidu」在一定程度上克服了这一问题，保持了视频的连贯性和流畅性，展现出良好的时间、空间一致性，让观众体验更加真实。

模拟真实物理世界

「Vidu」能够模拟真实物理世界的运动，包括物体的移动和相互作用。与Sora相比，「Vidu」在灰尘、光影等细节方面表现出色，接近真实世界的体验，展现出优秀的技术能力。

丰富的想象力与中国元素

「Vidu」不仅能生成现实世界中的画面，还能虚构出真实世界不存在的超现实主义画面。此外，「Vidu」还能注入特有的中国元素，如熊猫、龙等，为视频内容增添了新意。

团队背景与技术路线

生数科技的团队来自清华大学人工智能研究院，致力于图像、3D、视频等多模态大模型领域的研究。他们基于自研的U-ViT架构开发了「Vidu」，该架构融合了Transformer和Diffusion模型，展现出卓越的生成能力。团队在多模态领域发表了多篇顶会论文，积累了丰富的研究经验。

生数科技通过「Vidu」展现了其在视频生成领域的创新能力和技术实力，为未来视频内容创作带来了更多可能性。其快速突破和优秀表现也让人期待其未来的发展和应用。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

AI 绘画提示词每日分享(星球大战系列）–未来科技

AI 绘画提示词每日分享(星球大战系列）–未来科技

绘画指令 11 hours前 0

AI绘画指令词大全，激发你的无限创意，让画作更独特

AI绘画指令词大全，激发你的无限创意，让画作更独特

绘画指令 19 hours前 0

AI绘画指令使用指南：从入门到进阶，轻松掌握技巧

AI绘画指令使用指南：从入门到进阶，轻松掌握技巧

绘画指令 1 day前 0

用AI绘画app绘制国风图画，6个不同类型的国风绘画提示词分享

用AI绘画app绘制国风图画，6个不同类型的国风绘画提示词分享

绘画指令 1 day前 0

Leave a Reply Cancel reply