文章主题:视觉块, Sora, 视频生成, 大规模训练

666AI工具大全,助力做AI时代先行者!

单击上方“图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达

1712371258016.jpg

视频生成模型是一种可以根据文本或其他输入生成逼真视频的人工智能技术。近年来,随着深度学习的发展,视频生成模型取得了令人瞩目的进展,不仅可以生成高清晰度、长时间的视频,还可以模拟物理世界和数字世界的各种现象,甚至可以创造出从未存在过的场景和角色。视频生成模型有着广阔的应用前景,比如娱乐、教育、游戏、设计等领域。

关闭
观看更多
更多
退出全屏

视频加载失败,请刷新页面再试

1712371258087.jpg 刷新

1712371258114.jpg

本文将介绍一种最新的视频生成模型——Sora,它是由OpenAI的研究团队开发的,可以根据文本、图片或视频的输入,生成多样化、高质量、长时长的视频。Sora的核心技术是基于变换器(Transformer)和扩散模型(Diffusion Model)的深度神经网络,它可以在互联网规模的视频数据上进行大规模的训练,从而获得泛化的能力,可以生成各种类型、分辨率、长短和比例的视频。Sora的目标是成为一个通用的世界模拟器,可以模拟物理世界和数字世界的各种现象,以及其中的人、动物和物体。

本文将重点介绍Sora的以下几个方面:

– 如何将各种类型的视觉数据转化为统一的表示,从而实现大规模的视频生成模型的训练;

– Sora的能力和局限性的定性评估;

– Sora的一些有趣的应用和展示。

🌟🚀探索无限可能!💡想深入了解世界模拟器背后的黑科技吗?🔍别错过OpenAI的经典研究报告——”Video Generation Models as World Simulators”,这里藏着超炫的模型和创新实现的秘密!📚只需轻轻一点链接(👉https://openai.com/research/video-generation-models-as-world-simulators),带你遨游科技的海洋,感受未来世界的震撼魅力!🚀🎉

视觉数据的统一表示

为了训练一个通用的视频生成模型,我们需要使用大量的视频数据,而视频数据的多样性和复杂性给模型的训练带来了挑战。视频数据的类型、分辨率、长短和比例都可能不同,如果直接将原始的视频数据输入模型,会导致计算效率低下,而且难以捕捉视频数据的本质特征。因此,我们需要将视频数据转化为一种统一的表示,从而降低数据的维度和复杂度,同时保留数据的关键信息。

🌟💡灵感源于巨量语言模型,LLM通过海量文本数据淬炼,泛化力强大,代码、数学与自然语言无所不能!🚀🔍我们专注于延续这种卓越,将LLM的优势带入视频领域。不同于LLM依赖文本标记,我们的创新之作Sora采用视觉块(Visual Patch)作为核心元素。👀👀视觉块,一种经验证明的视觉数据利器,它以优雅的方式包容了不同形式,为训练各类视频和图片生成模型提供了高效且强大的表达方式。无论分辨率、时长还是比例变化,都能游刃有余。💪通过Sora,我们不仅实现了技术上的突破,更在数据单元上实现了创新与效率的双重提升,引领视频生成领域的新风尚。🌍欲了解更多关于如何将视觉块应用于视频生成的深度探索,敬请关注我们的最新研究动态。📚💻

1712371258272.jpg

我们将视频数据转化为视觉块的过程分为两个步骤:首先,我们将视频数据压缩到一个低维的隐空间(Latent Space);其次,我们将隐空间中的表示分解为时空视觉块。

视频压缩网络

我们训练了一个网络,可以将视觉数据的维度降低。这个网络将原始的视频数据作为输入,输出一个压缩后的隐空间表示,这个表示在时间和空间上都进行了压缩。Sora是在这个压缩后的隐空间中进行训练和生成的。我们也训练了一个对应的解码器模型,可以将生成的隐空间表示映射回像素空间。

时空视觉块

🌟提取时空视块,作为Transformer的专属标签(Token),这是一种创新的方法,适用于各类媒体,包括但不限于图片。我们的视觉区块设计巧妙,让Sora能轻松应对不同尺寸、格式和内容的挑战。训练时,它的灵活性体现在无论分辨率如何变化,都能稳定运作。而在推理阶段,通过随机布局视觉块网格,我们能够随心所欲地调整输出视频的规模,无需担心尺寸限制。🚀

视频生成模型的扩展

Sora是一种扩散模型(Diffusion Model),给定输入的噪声视觉块(以及条件信息,比如文本提示),它被训练为预测原始的“干净”视觉块。重要的是,Sora是一种扩散变换器(Diffusion Transformer)。变换器在各种领域都展示了惊人的扩展性能,包括语言建模、计算机视觉和图像生成。

在本文中,我们发现扩散变换器也可以有效地扩展为视频生成模型。下面,我们展示了随着训练计算量的增加,使用固定的种子和输入的视频样本的对比。可以看到,样本的质量随着训练计算量的增加而显著提高。

1712371258495.jpg

可变的长短、分辨率和比例

🌟原内容改写🌟图像和视频生成技术曾习惯于对不同格式的素材进行标准化处理,如常见的4秒片段、256×256像素分辨率。然而,一项深入研究揭示了打破常规的力量——直接在原始数据尺寸下训练模型,能带来意想不到的优势。这样做不仅保留了原始信息的完整性,还可能激活潜在的细节和丰富性,从而提升生成质量与用户体验。🚀

采样灵活性

“Sora’s versatile sampling capabilities allow for seamless capture of 1920x1080p widescreen videos, 1080×1920竖屏 clips, and any resolution in between. This enables seamless content creation tailored to native aspect ratios across various devices. Its efficiency also enables quick prototyping at lower res before refining into full HD with a single model, streamlining the workflow.” 📡💻🌐✨

1712371258694.jpg

改善的构图和布局

🌟研究揭示:保持视频原始比例训练,对生成模型至关重要!💡在优化视频生成算法的过程中,我们惊奇地发现,遵循原尺寸而非强制裁剪至正方形,能显著提升画面艺术性与完整性。👀对比实验中,我们用Sora与一个流行做法的模型进行了对比——后者所有视频都被牺牲了原始比例,只为了训练的便利。结果令人意外,左方的成品(👨‍💻)常出现主体部分被画面边缘割裂的情况,观感大打折扣。然而,我们的明星模型Sora(🌟),以其独特的视角和均衡构图,展示了真正的实力。右侧的作品,每一个镜头都仿佛在讲述一个完整的故事,让视觉享受达到极致。👀这样的改进不仅提升了视频质量,也对SEO优化有着积极影响,因为观众能更直观地感受到内容的丰富与连贯性。🏆#视频生成#原始比例#构图优势

1712371258911.jpg

语言理解

训练文本到视频的生成系统需要大量的视频和对应的文本描述。我们采用了DALL·E 330介绍的重新描述(re-captioning)的技术,将其应用到视频上。我们首先训练了一个高度描述性的描述模型,然后用它为我们的训练集中的所有视频生成文本描述。我们发现,训练在高度描述性的视频描述上可以提高文本的准确性和视频的整体质量。

类似于DALL·E 3,我们也利用了GPT,将用户的简短提示转化为更长更详细的描述,然后发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

例如,给定一个提示“一只可爱的袋鼠”,Sora可以生成如下的视频:

1712371259095.jpg

如果我们给出更详细的提示“一只可爱的袋鼠,穿着蓝色牛仔裤和白色T恤,在南非约翰内斯堡散步,日落时分”,Sora可以生成如下的视频:

1712371259311.jpg

使用图片和视频作为提示

我们在前面和我们的网站上展示的所有结果都是文本到视频的样本。但是Sora也可以接受其他类型的输入,比如已有的图片或视频。这种能力使得Sora能够执行广泛的图片和视频编辑任务,比如创建完美的循环视频,给静态图片添加动画,将视频向前或向后延长时间等等。

给DALL·E的图片添加动画

Sora可以根据图片和提示作为输入生成视频。下面我们展示了一些基于DALL·E 231和DALL·E 330的图片生成的视频的例子。

1712371259929.jpg

延长生成的视频

Sora也可以延长视频,无论是向前还是向后。下面是四个视频的例子,它们都是从一个生成的视频的片段开始,向后延长时间的。结果是,每个视频的开头都不同,但是都会导致同样的结尾。

1712371260107.jpg

我们可以用这种方法将一个视频向前和向后延长,从而产生一个无缝的无限循环。

1712371260308.jpg

视频到视频的编辑

扩散模型使得我们能够用文本提示来编辑图片和视频。下面我们将其中一种方法,SDEdit,32应用到Sora上。这种技术使得Sora能够零样本地(zero-shot)改变输入视频的风格和环境。

例如,给定一个输入视频,我们可以用一个提示“将场景改为茂密的丛林”来生成如下的视频:

1712371260496.jpg

拼接视频

我们也可以用Sora来逐渐地插值两个输入视频,创建不同主题和场景的视频之间的无缝过渡。在下面的例子中,中间的视频是在左边和右边的视频之间插值的。

1712371260952.jpg

图片生成能力

Sora也可以生成图片。我们通过将高斯噪声的块排列在一个空间网格上,时间维度为一帧,来实现这一点。模型可以生成不同大小的图片,最高可以达到2048×2048的分辨率。

例如,给定一个提示“秋天的女人的特写肖像,细节极佳,景深浅”,Sora可以生成如下的图一:

1712371261455.jpg

新兴的模拟能力

我们发现,当视频模型在大规模的数据上训练时,会出现一些有趣的新兴的能力。这些能力使得Sora能够模拟物理世界和数字世界的一些方面,以及其中的人、动物和物体。这些特性并没有任何明确的针对三维、物体等的归纳偏置,它们纯粹是规模的现象。

#### 三维一致性

Sora可以生成具有动态相机运动的视频。当相机移动和旋转时,人和场景元素在三维空间中保持一致的运动。

1712371261725.jpg

长距离的连贯性和物体的持久性

视频生成系统面临的一个重要的挑战是在采样长视频时保持时间上的连贯性。我们发现,Sora通常(但不总是)能够有效地建模短距离和长距离的依赖关系。例如,我们的模型可以在人、动物和物体被遮挡或离开画面时保持它们的存在。同样,它可以在一个样本中生成同一个角色的多个镜头,保持它们的外观一致。

1712371261945.jpg

与世界的互动

Sora有时可以模拟一些影响世界状态的简单的行为。例如,一个画家可以在画布上留下新的笔触,它们会随着时间的推移而持续存在,或者一个男人可以吃一个汉堡,留下咬痕。

1712371262110.jpg

模拟数字世界

Sora也可以模拟一些人工的过程,一个例子是视频游戏。Sora可以同时控制Minecraft中的玩家,使用一个基本的策略,同时也渲染出世界和它的动态。这些能力可以通过给Sora提供提到“Minecraft”的描述来零样本地(zero-shot)地激发出来。

讨论

Sora作为一个模拟器目前还有很多的局限性。例如,它不能准确地模拟一些基本的物理交互,比如玻璃碎裂。其他的交互,比如吃食物,也不总是能够产生正确的物体状态的变化。我们在我们的网站上列举了模型的一些常见的失败模式,比如在长时间的样本中出现的不连贯性或者物体的突然出现。

我们认为,Sora目前所具有的能力表明,继续扩大视频模型的规模是一个有前途的路径,向着开发能够模拟物理世界和数字世界,以及其中的人、动物和物体的能力的模拟器的方向前进。

版权声明

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *