打破32秒天花板！中国首个自研视频大模型Vidu迎重大进展，Sora后的又一爆款？

文章主题：Vidu, Sora, 自研视频大模型, 多模态扩散模型

🎉【 Vidu里程碑突破】40天后的重量级飞跃！中国首款自主研发的视频巨模，Vidu，已成功实现对Sora的深度对接与优化，引领行业崭新风向！🚀在AI技术的创新浪潮中，Vidu以卓越实力，打破常规，展现出强大的自研视频处理能力。此次里程碑式的突破，标志着中国在人工智能视频领域又迈进一大步。🌍 Vidu不仅具备前沿的技术架构，更注重用户体验，致力于提供流畅、高效且个性化的服务。它的每一次迭代都旨在满足用户日益增长的期待，为行业树立了新的标准。🔥欲了解更多关于Vidu如何颠覆传统，塑造未来的内容，敬请关注我们后续的深度解析和案例分享。📚SEO优化提示：#Vidu里程碑 #自研视频大模型 #AI技术革新 #用户体验至上

6月6日消息，钛媒体AGI独家获悉，生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型Vidu，近期完成三个最新、重大技术迭代，实现国内视频模型更大一步技术跨越。

1、目前Vidu可以一键生成32s视频；2、支持音视频合成，即Vidu视频生成有声音了（Text-2-Audio）3、支持4D生成，可以从单一视频生成时空一致的4D内容。

首先，在32s视频技术中，清华大学人工智能研究院副院长、生数科技首席科学家朱军教授6号下午现场展示了一段Vidu生成的画面。

✨👀一个精美绝伦的图书馆书架上，摆放着一款动感十足的地球仪🌍，它悄然旋转，仿佛在带领我们探索无尽宇宙。👀🔍镜头缓缓拉近，那精致的表面下隐藏着惊人的秘密——一颗璀璨的蓝色星球，与我们所熟知的地球惊人相似！✨💫32秒的视频片段，每一帧都细腻到极致，仿佛触摸到了那精细的地图纹理，信息详实而立体。🌍🗺它的动态转换流畅自然，从书架上的地球仪，到内部星球的神秘揭示，每一个环节都精心设计，引人入胜。📚🌈这样的视觉盛宴，不仅满足了我们的好奇心，也展示了制作团队的专业技艺和对细节的极致追求。若要了解更多，只需轻轻一点，SEO优化的关键词已巧妙融入其中，等待你的探索！🔍🌐

其次，现场展示了三段此前Vidu发布的Demo，但这次是“有声版”：

1、“画室里的一艘船驶向镜头”的片段，在强表现力、丰富想象力的画面之上，同步生成了背景音，包括海浪声、船的撞击声，声音自然，与画面高度匹配；2、另一段“汽车在陡峭山坡上行驶”的片段。现场放出的配音版，能直观听到汽车发动机声音，以及轮胎在地面摩擦的声音，音画同步，包括能感受到森林环境的背景音；3、还有一段是镜头围绕一大堆老式电视旋转，所有电视都显示不同的节目，20世纪50 年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等，背景设置在纽约一家大型博物馆画廊内。在声音效果上，该片段能够生成出嘈杂的环境和电视播放的声音内容，非常符合实际效果。

最后，Vidu4D层面，据了解，Vidu4D支持从单个生成的视频中精确重构出4D（即序列3D）。朱军表示，该项工作能有效提升视频生成模型效果，通过提升3D一致性，来增强视频生成对世界的真实模拟。

🌟朱军揭秘：底层技术解锁无限可能！🚀理论上，我们的音频生成与匹配系统具备打破时间限制的强大实力。然而，令人兴奋的是，尽管官方还未正式宣布，但近期的演示已展现出非凡效能。国产视频生成模型的耐力新纪录，短短32秒内便刷新至崭新的高度。🔥👀技术的进步日新月异，生数科技正以创新的速度引领潮流。虽然发布日期尚未公布，但现场所展示的实力无疑预示着一个里程碑式的突破。我们期待看到更多关于这一音频革命的官方消息，以便更深入地理解并体验其无限可能。💡📝记住，时长并非界限，技术才是未来的王道！🚀别忘了持续关注，因为每一次进步都可能带来颠覆性的变革。🏆

相关论文已上线arXiv。论文地址：

https://arxiv.org/abs/2405.16822

据悉，今年4月27日2024中关村论坛年会“未来人工智能先锋论坛”上，生数科技联合清华大学正式发布原创自研视频大模型Vidu，采用团队原创的Diffusion与Transformer融合的架构U-ViT。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。而且作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。

🌟【创新引领未来】🔍探索深度生成模型之先驱——生数科技团队于2021年便引领潮流，成为国内最早研究扩散模型的先锋力量之一。他们的智慧结晶，如Analytic-DPM和DPM-Solver两大算法，不仅在业内备受认可，更被Stable Diffusion与DALL·E 2等重量级图像模型采纳，加速了全球图像生成技术的革新步伐。🌟

🌟2022年9月，创新引领！团队独创全球首个Diffusion-Transformer一体化模型-U-ViT，仅3个月后，伯克利的研究者紧随其后，发表了DiT架构，与U-ViT理念一脉相承，实验路径如出一辙。这一技术在随后的Sora项目中大放异彩，引发了广泛热议。而早在一年前，生数科技就已经对这一前沿技术展开了深度布局。🏆

🌟🚀重大进展！UniDiffuser，全球首屈一指的开源多模态扩散模型，仅半年便引领创新潮流！它以卓越的融合架构，成功展示了大规模训练的潜力和无尽的涌现能力。这不仅是技术上的飞跃，更是NeurIPS 2023年度盛选的荣耀象征。🏆🌍让世界见证明日科技的力量，UniDiffuser，未来已来！✨

🌟【OpenAI Sora之后】仅两个月跃升！ Vidu团队凭借对UViT架构的独到洞察及深厚技术积累，迅速破解了长视频处理的难题，推出了业内领先的[Vidu Video Supermodel]🔥。它以卓越的视频流畅性和动态表现力，显著提升了用户体验，为视听盛宴带来了革命性的提升。🚀🏆凭借其在U-ViT领域的深度理解和工程数据经验，Vidu团队展现出超凡的技术实力和创新速度，将长视频处理技术推向了新的高度。他们的突破不仅打破了行业常规，也为未来的多媒体处理开辟了无限可能。💡欲了解更多关于如何让视频动起来的科技秘密，敬请关注[Vidu官网]🌍，或直接咨询我们的专家团队，他们随时准备分享这一技术创新的成果和背后的智慧。👩‍💻👨‍💻

🌟【技术亮点揭秘】[Vidu]与[Sora]同步！端到端全模压，打破传统束缚✨🔥专注于创新，Vidu独树一帜，底层算法设计上坚持纯单一模型路线，拒绝繁琐中间环节，实现无缝端到端生成体验。🚀无需插帧或多步骤处理，每一帧都源于纯净的计算力，流畅无瑕，直击用户心弦。🎶🔍这样的技术架构不仅保证了音视频同步的极致精准，更有利于搜索引擎优化，提升内容在海量信息中的脱颖而出概率。SEO友好，让优质内容触达更多目光。🌍欲了解更多关于Vidu如何用科技驱动创新，打造未来视听盛宴的秘密？请随时关注我们，让我们一起探索技术与艺术的完美融合！🎉—原文改写如下： Vidu秉持与Sora相同的底层算法理念，采用单一模型全端生成，摒弃传统多步骤处理，实现高效且无缝的音频视频一体化。🚀这一创新设计简化流程，每一帧都源于简洁而强大的计算力，保证了卓越的同步效果和SEO优化。👀欲探索Vidu如何引领视听技术潮流？敬请关注我们，一起揭开科技与艺术融合的神秘面纱！🌈

“Sora的发布，让文生团队惊喜地发现其研发理念与我们不谋而合，这无疑坚定了我们的研究步伐。Vidu，作为全球首个在Sora发布后实现显著突破的视频大模型，独树一帜，国内更是仅此一家，能与之抗衡的性能全面的视频模型。”

🎉[Vidu Model Revamp Alert!]🚀🔥Just in time for the techwave, Vidu’s game-changing prowess experiences a major upgrade! After an impressive one-month wait, the AI-driven platform is ready to take its innovation to new heights. 🚀🔍This latest iteration brings cutting-edge features and optimizations that promise to revolutionize remote collaboration. Expect seamless communication, enhanced performance, and all the tools you need for seamless virtual meetings. 💻欲知详情？Stay tuned! Our team has been working tirelessly to deliver a game-changing experience. Keep an eye on our blog or social media channels for the full scoop. 📰💻Remember, Vidu’s commitment to excellence never wavers. Join us in celebrating this milestone and witness the future of remote work unfold. 🌟#ViduModel #TechEvolution #RemoteCollaboration

🌟【创新引领】惊喜！ Vidu研发伙伴生数科技，于6月5日宣布完成Pre-A轮亿万级融资盛宴！🚀 由北京市人工智能产业投资基金与.baidu巨头联袂领航，中关村科学城公司等实力派跟进，众多知名投资机构如BV百度风投、启明创投等依然鼎力支持。这笔资金的注入将进一步推动生数科技在AI领域的技术革新和市场拓展。🏆🌟【科技盛宴】生数科技，作为Vidu背后的研发引擎，凭借其强大的创新能力，在资本市场的认可下持续加速发展。此次融资不仅彰显了公司的实力，也预示着AI技术将在未来迎来更广阔的应用前景。🌍SEO优化提示：#Pre-A轮融资 #生数科技 #人工智能 #百度领投 #中关村科学城 #技术创新 #市场拓展 #投资机构支持 #Vidu研发伙伴

🌟🚀掌握未来科技动态！💡生数科技，引领行业创新力量！📈我们的强大实力源于自主研发，从零开始打造的”产业级”自研多模态大模型，集图像、3D、视频生成于一身，为各领域带来革命性变革！🎨想象无界，只需轻轻一点。🚀MaaS（模型即服务）与应用级产品战略，让创新触手可及，商业变现无缝对接。🌍无论何时何地，我们的技术都在驱动世界前进！🌟欲了解更多详情，敬请关注我们，一起探索无限可能！🌐联系方式请私信获取，期待与您共创未来！🙏

🌟 Vidu, the game-changer in video creation, is on a mission to enhance its capabilities with “longer durations” and “multi-modal expansions”. The team under the guidance of Zhu Jun has made remarkable strides in a short span, demonstrating their prowess.👀The company’s next focus lies on refining its technology by delving deeper into audio synthesis, marking a pivotal shift from video generation. This strategic move sets Vidu up for even greater success and innovation.🚀With each update, Vidu inches closer to revolutionizing the industry, promising an immersive experience that transcends mere visuals. Stay tuned for more captivating developments! 🔥

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

aigc%E6%8E%A2%E7%B4%A2_%E5%8E%8B%E7%BC%A920k.png

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply