文章主题:视频加载, 刷新页面, 再次尝试

666AI工具大全,助力做AI时代先行者!

OpenAI 2月16日凌晨发布了文生视频大模型Sora,在科技圈引起一连串的震惊和感叹,在2023年,我们见证了文生文、文生图的进展速度,视频可以说是人类被AI攻占最慢的一块“处女地”。而在2024年开年,OpenAI就发布了王炸文生视频大模型Sora,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。英文版地址:https://openai.com/research/video-generation-models-as-world-simulators以下为OpenAI文生视频模型Sora官方技术报告我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。我们的研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。

关闭
观看更多
更多
退出全屏

视频加载失败,请刷新页面再试

1712371856103.jpg 刷新

1712371856139.jpg

图注:Sora生成的东京街头场景视频这份技术报告主要聚焦于两大方面:首先,我们详细介绍了一种将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,我们对Sora的能力及其局限性进行了深入的定性评估。需要注意的是,本报告并未涉及模型的具体技术细节。在过去的研究中,许多团队已经尝试使用递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法,对视频数据的生成式建模进行了深入研究。然而,这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。相比之下,Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。报告内容目录:将可视数据转换成数据包(patchs)视频压缩网络时空包用于视频生成的缩放Transformers丰富的持续时间、分辨率与纵横比采样更灵活改进构图与框架语言理解深化图片与视频提示将DALL·E图片变成动画扩展生成视频视频到视频编辑视频的无缝连接图片生成能力新的模拟能力局限性与展望因篇幅较长,且涉及较多演示视频,点击左下角“阅读原文”,查看完整报告,使用电脑打开体验更好~

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *