文章主题:DALL-E, 离散变分自编码器, 图像token, 文本token

666AI工具大全,助力做AI时代先行者!

Paper: https://arxiv.org/pdf/2102.12092.pdf

Code: https://github.com/lucidrains/DALLE-pytorch

DALL·E 是 OpenAI 的多模态预训练模型,通过120亿参数的模型,在2.5亿图像文本对上训练完成

DALL-E 是一个具有两阶段结构的深度学习模型。在第一阶段中,该模型采用离散变分自编码器(dVAE)作为生成图像的源代码。dVAE是一种特殊的自编码器,它能够将图像数据分布表示为一组离散变量,并通过编码器和解码器将这些变量转换回原始图像。在这个阶段中,DALL-E 生成了大量的图像 tokens,这些 tokens 为后续阶段提供了丰富的图像特征信息。在第二阶段,DALL-E 引入了一种基于 Transformer 的生成模型,这个模型同时融合了图像和文本特征。这种混合了视觉和语言信息的策略使得 DALL-E 能够更好地理解图像中的文本内容,并将其转化为更具文本感的图像。通过这一阶段的处理,DALL-E 能够生成更加逼真、富有创意的图像,从而实现了从随机噪声到复杂场景的高质量图像生成。

在众多文章中,有一些思路是值得我们学习的。例如,BEiT采用dVAE模型进行MIM预训练任务,并通过CLIP方法实现重排,这种直观且有效的策略在相关领域得到了广泛应用。

1701778781661.jpg
Image

先贴个效果图

通过文字来生成图片,达到设计师的水平,还是比较震撼的

1701778781910.jpg
Image

为什么用dVAE?

DALL·E的核心理念是将文本令牌和图像令牌视为一个数据序列,并通过Transformer进行自回归。然而,鉴于图像尺寸较大,若将每个像素视为一个令牌进行处理,将会引发计算量过大问题。因此,DALL·E引入了dVAE模型以降低图像分辨率。具体来说,这是一种将图像分割成更小的单元并将其转换为令牌的方法,从而实现更高效的计算。

1701778782097.jpg
Image

DALL·E的整体流程

在首个阶段,我们首先创建一个dVAE模型,该模型的目标是将每张256×256的RGB图像压缩为32×32的图片token。在每个位置上,都有8192种可能的取值(这意味着dVAE的encoder输出是一个维度为32x32x8192的logits向量)。接下来,我们将这些logits向量作为索引来从codebook中提取特征,并利用这些特征进行组合。值得注意的是,codebook的embedding是可学习的,这使得模型能够根据输入图像的不同进行自适应调整。

在第二个阶段,我们采用BPE Encoder对文本数据进行编码处理,这一过程会产生最多256个文本token。若生成的token数量不足256个,我们会进行填充至256个。接下来,将这256个文本token与1024个图像token进行融合,形成一个长度为1280的数据片段。最后,将这个拼接后的数据输入到Transformer模型中,展开自回归训练。在这个过程中,我们采用了典型的teacher forcing策略,并采用滑窗式样生成方式。

训练阶段,先训练dVAE模型,然后固定dVAE模型再来训练自回归的 Transformer

在推理阶段,DALL·E 的首个版本呈现出与GPT-3类似的transformer解码器特征。这一版本能够根据输入文本,生成大量图像代码字符串。接着,通过应用dVAE的解码器,我们得以生成众多可选的、尺寸为256×256的大小时长的图像。

1701778782291.jpg
Imagererank 阶段,下图所示,通过输入不同的首个图像的 token 可生成很多各种类型的图片(设置max=512),需要根据 CLIP 来对得到的图文对进行重排
1701778782488.jpg
Image

从以上流程可知,dVAE、Transformer和CLIP三个模型都是不同阶段独立训练的。

参考博客

https://zhuanlan.zhihu.com/p/506778898https://blog.csdn.net/qq_42718887/article/details/113834840https://www.zhihu.com/question/447757686/answer/2389839154https://m.thepaper.cn/baijiahao_18442761https://jalammar.github.io/how-gpt3-works-visualizations-animations/

本文使用 Zhihu On VSCode 创作并发布

DALL-E, 离散变分自编码器, 图像token, 文本token

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *