《DALL-E:图像到文本再到图像的神奇之旅》

文章主题：DALL-E, 离散变分自编码器, 图像token, 文本token

Paper: https://arxiv.org/pdf/2102.12092.pdf

Code: https://github.com/lucidrains/DALLE-pytorch

DALL·E 是 OpenAI 的多模态预训练模型，通过120亿参数的模型，在2.5亿图像文本对上训练完成

DALL-E 是一个具有两阶段结构的深度学习模型。在第一阶段中，该模型采用离散变分自编码器（dVAE）作为生成图像的源代码。dVAE是一种特殊的自编码器，它能够将图像数据分布表示为一组离散变量，并通过编码器和解码器将这些变量转换回原始图像。在这个阶段中，DALL-E 生成了大量的图像 tokens，这些 tokens 为后续阶段提供了丰富的图像特征信息。在第二阶段，DALL-E 引入了一种基于 Transformer 的生成模型，这个模型同时融合了图像和文本特征。这种混合了视觉和语言信息的策略使得 DALL-E 能够更好地理解图像中的文本内容，并将其转化为更具文本感的图像。通过这一阶段的处理，DALL-E 能够生成更加逼真、富有创意的图像，从而实现了从随机噪声到复杂场景的高质量图像生成。

在众多文章中，有一些思路是值得我们学习的。例如，BEiT采用dVAE模型进行MIM预训练任务，并通过CLIP方法实现重排，这种直观且有效的策略在相关领域得到了广泛应用。

Image

先贴个效果图

通过文字来生成图片，达到设计师的水平，还是比较震撼的

Image

为什么用dVAE？

DALL·E的核心理念是将文本令牌和图像令牌视为一个数据序列，并通过Transformer进行自回归。然而，鉴于图像尺寸较大，若将每个像素视为一个令牌进行处理，将会引发计算量过大问题。因此，DALL·E引入了dVAE模型以降低图像分辨率。具体来说，这是一种将图像分割成更小的单元并将其转换为令牌的方法，从而实现更高效的计算。

Image

DALL·E的整体流程

在首个阶段，我们首先创建一个dVAE模型，该模型的目标是将每张256×256的RGB图像压缩为32×32的图片token。在每个位置上，都有8192种可能的取值（这意味着dVAE的encoder输出是一个维度为32x32x8192的logits向量）。接下来，我们将这些logits向量作为索引来从codebook中提取特征，并利用这些特征进行组合。值得注意的是，codebook的embedding是可学习的，这使得模型能够根据输入图像的不同进行自适应调整。

在第二个阶段，我们采用BPE Encoder对文本数据进行编码处理，这一过程会产生最多256个文本token。若生成的token数量不足256个，我们会进行填充至256个。接下来，将这256个文本token与1024个图像token进行融合，形成一个长度为1280的数据片段。最后，将这个拼接后的数据输入到Transformer模型中，展开自回归训练。在这个过程中，我们采用了典型的teacher forcing策略，并采用滑窗式样生成方式。

训练阶段，先训练dVAE模型，然后固定dVAE模型再来训练自回归的 Transformer

在推理阶段，DALL·E 的首个版本呈现出与GPT-3类似的transformer解码器特征。这一版本能够根据输入文本，生成大量图像代码字符串。接着，通过应用dVAE的解码器，我们得以生成众多可选的、尺寸为256×256的大小时长的图像。