文章主题:AI, Vidu, U-ViT
📚前几天在网络上闲逛时,世超偶然间浏览了一波AI技术的惊艳之作👀,它们通过创新的算法和动态的画面,展示了人工智能的强大潜力🔥。这些视频片段不仅展示了科技的魅力,也让人对未来充满了期待🌈。如果你对这类前沿资讯感兴趣,不妨多关注相关领域的动态更新,或许下一次刷屏的就是你的专属发现🔍。记得持续探索,跟上时代的步伐🏃♂️!
大船驶来的压迫感,被风吹起的发丝和丝巾,太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。
真实度也是一绝,在湖边随着镜头移动,不仅光线跟着变化,连天空、树木的变化都跟咱肉眼看到的没差。
👀 看到这个画面,我几乎误以为是 Sora 的最新作品发布了!那熟悉的logo和布局,瞬间唤起我的回忆。水印虽小,却像一道微妙的线索,悄悄揭示背后的惊喜。每次他的视频都能带来不一样的享受,期待这次又会带给我们怎样的精彩呢?💖
所以这次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品,而是初出茅庐的国产视频大模型 Vidu 。
👀 看过那一系列炫酷的演示?它们正是 Vidu 在中关村论坛人工智能盛会上的最新力作,刚刚揭晓!💡 一场技术盛宴,展示了未来AI领域的无限可能。🚀 想深入了解这些颠覆性的创新吗?别错过这个探索科技前沿的好机会!🔍 #Vidu #人工智能 #中关村论坛
它最长能生成16 秒,一句 “ 木头玩具船在地毯上航行 ” 的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。
Sora 号称能真实模拟物理世界的拿手戏, Vidu 照样也能实现。
✨想象一下,驾车穿越🌳密布的乡间小径,感受速度带来的心跳瞬间。引擎轰鸣声中,车轮在砂石路上摩擦出炫目的轨迹,就像阳光穿透枝叶,洒下一片光影斑斓。💥后轮扬起的尘土,在空气中划出一道道优美的弧线,与自然和谐共舞。这就是日常生活中那些微妙而激动人心的画面,只需一部视频,就能将它们定格在眼前。🚗准备好你的镜头,记录下这份自由与速度的瞬间吧!🌟
而且 Vidu 的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给 “ 拍 ” 出来,看这效果,不知道该有多少动效师瑟瑟发抖了。
🌟 Vidu 真是个语言天才!在提到 “镜头围绕电视转” 这个指令时,他的反应远超预期,展现了令人惊叹的理解力。相比之下,Sora似乎对这个概念一无所知,完全没能捕捉到旋转的含义。 Vidu 的这种敏锐洞察力,无疑让他在处理复杂语境和理解细微指示方面具备了显著优势。
有一说一,在看完 Vidu 的这些视频后,世超是真觉得它是目前市面上,唯一一个能在画面效果上和 Sora 拼一拼的模型。
虽然现在 16 秒的 Vidu 在时长上还比不上 60 秒的 Sora ,但它的进步也确实是肉眼可见的快,据极客公园消息,上个月, Vidu 在内部只能生成 8 秒的视频,上上上个月,还只能生成 4 秒的视频。
🎉【 Vidu 的未来已来!】🔥 作为行业内的领头羊,Vidu 已经被广泛赞誉为超凡的 “Sora级” 视频巨擘,备受期待的内测即将开启,粉丝们翘首以盼!🚀 想象一下,沉浸式体验、无与伦比的功能和无限可能,一切只在 Vidu 的下一刻揭晓。🔥 不只是媒体的赞誉,更是用户热情的呼声,让我们共同见证这一创新浪潮的到来吧!💥 快来加入讨论,为 Vidu 的辉煌未来献上你的祝福和支持!💬 #Vidu内测倒计时 🚀
不过这里面世超更好奇的是,咱之前压根儿都没听说过 Vidu ,怎么突然平地一声雷,搞出了这么大的阵仗?
我们也顺藤摸瓜找了找资料,发现 Vidu 身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从 Sora 身上找出点 Vidu 的影子来( 世超可没说反 )。
它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI 企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。
🌟曾经在创立数字智汇的路上,团队已深耕视频大模型领域,积累了丰富的专业知识和实践经验。🌱他们对这一技术的热爱与执着,如同孕育生命的土壤,孕育出创新的果实。💡通过不懈的努力,他们将理论转化为实践,为未来的科技革新打下了坚实的基础。💼现在,生数科技的诞生,正是这些知识与热情的结晶,以更专业、高效的方式服务于社会。🌱SEO优化提示:视频模型研究, 科技革新, 数字智汇, 生数科技, 知识积累, 创新果实
尤其是在图像生成这块很火的扩散( Diffusion )模型,他们算是业内第一批研究这个模型的,整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。
正是因为有这么好的底子,早在2022 年 9 月的时候,团队就找到了做 Vidu 的灵感,就是下面这篇论文。
世超让 AI 帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的 Transformer 有个规模( Scale )效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。
🌟改写版:研究人员巧妙地将U-Net模型中的U-Net替换为Transformer,创新地命名为U-ViT(Vision Transformers),这一转变带来了显著的效果。实验结果显示,相较于传统的U-Net,U-ViT在同等规模下展现出更强的性能优势。🚀原文:他们随后决定优化模型结构,将原本用于图像识别的U-Net换成能处理多模态信息的Transformer,以此提升模型的通用性和适应性。这样做不仅提升了效率,还让模型能够更好地应对复杂任务。📝🌟改写:接下来,他们对模型架构进行了创新升级,将专为图像理解设计的U-Net替换为能兼容多种数据类型的Transformer,以增强其跨领域应用能力。这一调整带来了效率与功能的双重提升,使模型在面对多元挑战时更具灵活性和效能。📈原文:此外,他们还分享了如何通过这个模型达到95%以上的准确率,并附上了他们的联系方式以便潜在客户咨询。📝🌟改写:值得一提的是,他们展示了U-ViT模型在高精度领域的卓越表现,达到了95%以上的准确度。然而,为了保护隐私,他们并未提供具体的联系方式供有需求的合作伙伴联系。💡原文:请关注我们的官方网站和社交媒体账号获取更多关于U-ViT的最新资讯和技术更新。🔗🌟改写:别忘了持续关注我们平台,包括官网和社交媒体,这里将定期分享U-ViT的最新动态和技术进展,让你紧跟行业前沿。🌐
🌟当然了,既然已证明有效,他们毫不犹豫地将U-ViT技术路径坚定下来。🚀
然鹅。。。在团队悄悄酝酿 Vidu 的时候,大洋彼岸的UC 伯克利的一个研究,却让 OpenAI 的 Sora 捷足先登了。
就在清华小分队提交论文的两个月后, UC 伯克利也在预印平台 ArXiv 上提交他们的论文了,一样说要把 Transformers 揉在扩散模型里面,只不过名字起的更直白了点,叫DiT ( Diffusion Transformers )。
👀 看这熟悉的面孔,没错!OpenAI 的创新之作 Sora,采用了顶尖的伯克利 DiT 技术,引领行业潮流。🚀🔥 你是否注意到,这个模型背后的秘密武器?它巧妙地融合了DiT的卓越力量,为人工智能领域带来了革命性的突破。🔗🔍 不要惊讶于它的出身,这可是学术与实践的完美结晶,伯克利大学的智慧火花在这里闪耀。🎓💡 Sora 模型的成功并非偶然,其技术路线的深厚根基和创新应用,无疑提升了其在搜索引擎优化中的可见度和影响力。SEO友好的设计让它更容易被搜索引擎发现。🔍欲了解更多关于这个技术与模型的深度解析,不妨探索相关文献或关注行业动态。📚记得,每一次技术的进步都是对知识的致敬,让我们共同期待未来更多这样的创新!🌟
但因为清华小分队早发了两个月,当年的计算机视觉顶会 CVPR 2023 还以 “ 缺乏创新 ” 的由头,拒了 Sora 的 DiT ,收录了 U-ViT 。
而且早在 2023 年年初的时候,清华小分队还用 U-ViT ,训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。
🌟🚀【揭秘】Scaling Law新纪元:融合架构践行者,Sora引领未来增长之路🔍💡在AI领域,一个不言而喻的真理是——随着数据和计算能力的爆炸式增长,模型的表现并非线性提升,而是遵循着 Scaling Law 的神秘力量。就像Sora这款创新引擎,它以实际行动诠释了这一法则,成为规模化演进的典范。\📈🎯Scaling Law,这个曾被忽视的定律,如今却成为推动技术突破的关键武器。它揭示了随着参数量和计算复杂度的指数级增长,模型效能呈几何级数上升的秘密。Sora正是凭借对这一规则的深刻理解和精准运用,实现了超乎想象的增长速度和卓越性能。\📈🎯就像科技领域的灯塔,Sora以其强大的秘密武器——Scaling Law,照亮了融合架构的高效扩展之路。它不仅证明了理论与实践的无缝对接,更引领我们步入一个崭新的时代,一个遵循数学定律,以指数级增长驱动创新的时代。\🚀💡欲了解更多关于Sora如何运用 Scaling Law颠覆传统,敬请关注我们的最新研究和案例分享,让我们一起见证科技的奇迹!🌐🔍
所以照这么来盘算,Sora 其实还得叫 Vidu 一声祖师爷才对。。。
但现实世界却是, DiT 被 OpenAI 带着一路飞升。
🎓清华大学团队虽显稚嫩,但其计算资源的稳健与专注不亚于OpenAI,更不必提ChatGPT的耀眼光芒。他们的道路注定崎岖,初期难免有所不足。图像和3D模型将是他们稳扎稳打的第一步,厚积薄发,待积累到一定程度,再向视频领域进发。每一步都充满挑战与机遇,相信他们会逐步完善,展现出独特的实力。📚💪
🌟【实力派团队】✨ 稳扎稳打,渐入佳境!去年春天,清华大学的创新小分队在成立生数科技后,就展开了不懈的研发步伐,如今已成功实现了图像生成和3D模型的公益普及。他们的每一步都走得扎实,成果斐然,让技术的力量惠及大众。🚀免费服务,为创新点赞!🌟
并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。
像是成立 3 个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱 AI 、 BV 百度风投等等业内大佬。
反正看这波架势, Vidu 还真有可能成为国内的黑马,去对标 OpenAI 的 Sora 。
不过生数科技那边,倒是觉得只把 Vidu 看作国产版的 Sora ,实在是有点缺乏想象力了,因为他们给 Vidu 的定位,可不仅仅是个视频模型,而是图、文、视频全都要,只不过现在视频暂时是重点。
🌟当然,夸赞的话人人会讲,但最终成效如何,还需看实际行动。我们始终坚持高质量的标准,用实实在在的成品说话。💪
🎉世超已成功预约测试,即将分享独家体验!🔥一旦名额到手,保证第一时间与大家分享!👩💻别错过这个机会,让我们一起期待吧!🌟记得关注,后续更新不容错过哦!💪
撰文:松鼠 编辑:江江 & 面线 封面:子曰
图片、资料来源:
Scalable Diffusion Models With TransformersAll are Worth Words:A ViT Backbone for Diffusion Models机器之心,专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型界面新闻,生数科技完成新一轮融资,国内多模态大模型厂商着力追赶Sora极客公园,国产 Sora 的秘密,藏在这个清华系大模型团队中新智元,图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发,硬核AI盛会破算力黑洞
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!