中国版Sora——Vidu进展曝光：时长延至32秒，首次支持音视频合成

6 months前 0 0

时隔40天，全面对标Sora的中国首个自研视频大模型Vidu重大进展低调曝光。

6号下午，在北京举办的CCF大模型论坛线下专题活动上，清华大学人工智能研究院副院长、生数科技首席科学家朱军教授放出了Vidu的最新进展。

1、目前Vidu可以一键生成32s视频；

2、支持音视频合成，即Vidu视频生成有声音了；

3、支持4D生成，可以从单一视频生成时空一致的4D内容。

首先，现场展示了一段Vidu生成的32秒画面。描述词为：这是一个图书馆书架放着的地球仪，它轻轻地旋转着，表面描绘的是地球的地图，相机逐渐拉近，地球仪表面剥开后，有一颗类似地球的蓝色星球。从现场放出效果看，32秒时长画面连贯，画面效果逼真，地球仪表面的地图信息也细颗粒度的复现，同时从“地球仪”到“内部蓝色星球”的动态转场也很好的实现。

此外，现场展示了三段此前Vidu发布的Demo，但这次是“有声版”。

首先是“画室里的一艘船驶向镜头”的片段，在强表现力、丰富想象力的画面之上，同步生成了背景音，包括海浪声、船的撞击声，声音自然，与画面高度匹配。

另一段“汽车在陡峭山坡上行驶”的片段。现场放出的配音版，能直观听到汽车发动机声音，以及轮胎在地面摩擦的声音，音画同步，包括能感受到森林环境的背景音。

还有一段，是镜头围绕一大堆老式电视旋转，所有电视都显示不同的节目，20世纪50 年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等，背景设置在纽约一家大型博物馆画廊内。在声音效果上，该片段能够生成出嘈杂的环境和电视播放的声音内容，非常符合实际效果。

最后还有一段片段，展现了32秒时长的音频生成。朱军表示，理论上底层架构支持任意时长的音频生成和匹配。

目前，生数科技官方还暂未放出正式的发布消息。但从现场效果来看，国产视频生成模型的时长天花板，在短短一个月后，再度被拉高至32秒。

另外值得关注的是，Vidu正朝着“更长时长”和“更多模态”的方向进化，并在短期内已快速取得了较好的阶段性效果。在视频生成之后，音频生成或将成为Vidu迭代的重点方向。

另外现场展示了一项Vidu4D的工作，据现场介绍，Vidu4D支持从单个生成的视频中精确重构出4D（即序列3D）。据朱军表示，该项工作能有效提升视频生成模型效果，通过提升3D一致性，来增强视频生成对世界的真实模拟。

目前该论文已挂arXiv。论文地址：

https://arxiv.org/abs/2405.16822返回搜狐，查看更多

责任编辑：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

守得云开见月明？国产Sora接连推出，算力需求快速增长，海光信息涨超4%，信创ETF基金（562030）涨逾2%

守得云开见月明？国产Sora接连推出，算力需求快速增长，海光信息涨超4%，信创ETF基金（562030）涨逾2%

5 months前 1

AI视频生成狂卷！4人小团队造出Sora竞品，耗费数千块GPU，已开放公测

AI视频生成狂卷！4人小团队造出Sora竞品，耗费数千块GPU，已开放公测

5 months前 2

实测七款“国产Sora”，恕我直言……

实测七款“国产Sora”，恕我直言……

5 months前 5

热门AI视频软件推荐，轻松上手无负担！

热门AI视频软件推荐，轻松上手无负担！

AI工具 2 hours前 1

Leave a Reply Cancel reply