《DALLE：利用文本生成图像提升感知任务》

文章主题：深度学习, 标记数据集, 文本到图像合成, 生成模型

↑ 点击蓝字关注极市平台作者丨Garfield编辑丨极市平台

极市导读

本文提出了一种新的范式，使用大视觉和基于语言的文本到图像合成框架，为对象检测和分割任务生成大规模标记数据。该方法在对象检测任务的流行基准上演示了轻松的标记数据生成。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

原文链接：https://arxiv.org/abs/2206.09592v2

1. 引言

在当今时代，众所周知，要构建一种强大的深度学习模型，所需的大量标记数据集是必不可少的。然而，获取这些数据集需要投入大量的人力和时间，因此，这使得数据集的获取变得既昂贵又耗时。针对这个问题，提出一个疑问：我们是否能够有效地生成大规模的标记数据集，并在新的下游任务上以高精度的方式完成感知任务？在回答这个问题之前，作者首先对此情境进行了某种程度上的预设，即任何旨在实现这一目标的方法都应具备以下特性：

减少人的参与，同时能使得任何新类在环境中实现自动的泛化可拓展（scalable），生成高质量和多样化的图像集可解释，可组合，并保护隐私。

在回顾过去的工作时，我们意识到运用计算机图形学原理生成数据是一种具有广泛影响力的策略。但是，这一方法需要搜集物体与场景的3D模型，这可能需求大量的具备专业技能的熟练人员，这在一定程度上限制了这种图形生成合成标记数据的可扩展性。

一种可行的方法是通过对象剪切和粘贴来进行2D合成生成，然而这种方法仍存在一定的局限性。主要是因为，尽管它们可以合成图像，但仍需前景对象的源以及精确的matting信息。因此，要实现高质量的图像合成，我们需要进一步研究和改进这种方法。

第三种方法则是采用基于机器学习的神经渲染器技术，例如基于NeRF的方法。然而，这类方法通常需要针对每一种新的对象类都进行模型的重新训练，因此在快速扩展至大量对象类方面存在一定的局限性。

作者提供了一个非常有趣的角度：能不能利用根据文本生成图像的模型来帮助完成感知任务？

在这篇文章中，我们介绍了一种创新的文本到图像合成方法，该方法包含两大核心模块，旨在生成高质量大规模训练数据，适用于诸如目标检测和实例分割等众多计算机视觉任务。首先，我们的技术能够精确地为特定兴趣对象生成前景对象掩码，这一成果得益于DALLE（一种文本到图像 synthesis算法）在图像 captioning（如生成对象边界框）方面的局限性。

为了创建各种不同的前景对象掩码，我们的方法首先生成一张图像，其主要包含与兴趣类别相对应的对象。为此，我们采用一个基础模板，将类名作为DALL-E pipelines的输入。例如，若要生成带有猫的图像，我们便将相应的类名用作纯背景上的猫图像输入。接下来，通过一种简单的背景-前景分割技术，我们可以获得感兴趣类的前景对象掩码。

在第二步骤中，我们需要生成各种各样的背景图像，以便为训练识别模型提供优质的有效上下文信息。background对于学习一个高效的目标识别模型具有至关重要的影响。Divella的研究提供了有力证据来证实这一点。过去的研究已经阐述了，寻找一致的上下文环境能有效提升目标检测任务的准确率。举例来说，将飞机和船只置于其天然环境中，可以显著增强目标检测的准确性。这是因为飞机通常在蓝天中飞行，而船只则位于水中。

在接下来的步骤中，我们将运用DALL-E技术生成多种高质量的场景图像。新方法的基石在于探讨上下文语言描述与语言驱动图像生成之间的相互关系。首先，针对 limited 的上下文图像，我们通过图像的自动 captioning 技术生成相应的上下文高级语言描述。接着，在 DALL-E 这种基于文本到图像的模型中，采用这些生成的语言描述以产生不同的图像集合。最后，这些产生的不同图像集合将被应用于生成上下文图像。

最后，为了生成标记数据，我们遵循一个简单的策略，即将第一步中获取的前景对象的mask粘贴到第二步中获取的随机上下文的图像上，就像对象剪切和粘贴方法一样。所提出的管道满足标签图像生成的所有所需属性。数据可以在没有人工参与的情况下轻松高效地生成。前景和背景图像生成的语言描述有助于提供可解释的组合数据生成。在语言域中可以轻松地添加或删除对象或设置。到此就完成了利用DALL-E生成感知任务的全部步骤。

根据上图的对比，论文提出的新方法很好地完成了初始提到的设计目的，具有较高的可行性。而且就后续的实验来看，效果也比较不错，能够借助DALL-E较好地拓展数据集，完成感知任务性能的提升。

2. 方法

首先明确，本文的目标是有效地生成大量标记数据，用于使用文本到图像合成框架来完成目标检测模型的训练。特别地，该方法将训练数据的生成解耦为不同的前景对象掩码生成集和不同的背景(上下文)图像生成集。获得前景对象的mask后，按照对象剪切粘贴策略合成到背景图像上。此外，所提出的方法还允许组合和可解释的数据生成。新的framework在文本指导下利用现成的语言生成框架来生成前景掩码和上下文图像。

如上图，论文提出方法的pipeline主要分成两部分：由前景生成和上下文背景生成。

前景生成:

(1)将兴趣类名称(如dog)填充到固定的提示模板中，生成前景句子。如何完成的呢？第一步是获得Context description images，首先假设我们已经得到了一个group完成对上下文的图像的描述。例如，如果测试场景包括一个厨房环境，那么一小组厨房图像可以从任何公共数据集或web图像中获取。下一步就是生成image captioning，描述来自给定context的上下文信息。语言可以用来提供对上下文的简明描述。

(2)然后，我们将句子输入DALL-E(或稳定扩散)，以生成高质量的前景图像，易于分离背景。作者特意强调，我们的前景zero-shot，只需要类别标签。这样可以很容易地分离对象，因为prompt engineering允许在简单的隔离背景上生成对象。然后，使用通用的无监督前景提取方法来获得mask。

(3)我们使用现成的图像分割方法从前景图像中提取前景片段。

背景的上下文生成:

其实到这里跟上面获取前景的工作也就非常类似了，只是完成的对象不一致。

(4)我们使用图像字幕方法(例如ScsT)为用户提供的CDls(用户可以提供少至一张图像)生成字幕。

(5)利用词汇网络和模型提取背景上下文词(例如，草地)，并基于ConceptNet增强更多相关的上下文图像(例如，森林)。

(6)我们根据上下文词和模板创建上下文的captioning句子。

(7)我们将句子输入DALL-E(或stable diffusion)生成高质量的背景图像。

(8)使用CLIP的score进行过滤，进一步保证生成的图像没有兴趣类。简单来说就是利用CLIP来计算captioning和image的相似度，对于相似度较低的类别给过滤掉。

(9)将前景片段和背景图像结合起来，通过剪切粘贴得到带有相应注释的合成图像。

(10)最后，当然就是使用合成数据集来训练目标检测/分割模型。

如何解释生成文本的质量，进而和图像进行matching呢？

作者用上图强调方法的组成和可解释的性质。具体来说，当提供的CDI不能完美地描述真实的测试场景时，语言的组合属性可以通过删除/添加/样式更改来帮助纠正上下文描述。例如，如果初始描述包含男性和女性的噪声信息，我们可以直接进行干预，去除噪声信息，生成一致的上下文描述。注意，测试场景的4个例子都来自GMu厨房数据集。红色框为未进行语言干预的生成图像，绿色框为干预后的生成图像。可以发现，生成的质量还是相对较高的。

3. 实验

这里的实验细节较多，采用了生成和真实的数据集进行对比，可以发现其实本文生成的背景已经可以超过了COCO自己本身收集的背景，而CDI上涨的时候，对于mAP也有较为明显的提升作用。

根据消融实验，也可以发现，采用上述方法生成foreground非常重要，可以提升三个点之多，达到了40%左右的性能改进。

可视化效果也不得不让人感叹获取的前景和后景质量之高。

4. 结论

本文提出了一种新的范式，使用大视觉和基于语言的文本到图像合成框架，为对象检测和分割任务生成大规模标记数据。论文提出的方法在对象检测任务的流行基准上演示了轻松的标记数据生成。使用这些数据训练的计算机视觉模型比使用大量真实数据训练的模型提高了性能。从而减少了昂贵的人工标记过程的需要。作者还强调了在分布不足和zero-shot数据生成场景下数据生成方法的组成性质。

公众号后台回复“CNN综述”获取67页综述深度卷积神经网络架构

极市干货

技术干货：损失函数技术总结及Pytorch使用示例｜深度学习有哪些trick？｜目标检测正负样本区分策略和平衡策略总结

实操教程：GPU多卡并行训练总结（以pytorch为例）｜CUDA WarpReduce 学习笔记｜卷积神经网络压缩方法总结