《DALL-E：OpenAI训练出会生成图像的新型神经网络》

文章主题：OpenAI, GPT-3, DALL-E, image generation

最近，OpenAI取得了一项重大突破，成功研发出一款具备文本标题生成图像能力的人工智能网络。这款网络的性能与GPT-3以及图像型GPT相当，且成果令人瞩目。

DALL-E是OpenAI公司运用其先进的GPT-3技术打造的一款创新型神经网络。作为GPT-3的小型版本，DALL-E具有120亿个参数，相较于GPT-3的1750亿个参数有显著优势。尽管参数数量较少，但DALL-E已经过的专业训练，使其具备了从文本描述中生成图像的能力。这一点与GPT-3的广泛数据集不同，GPT-3的数据集覆盖了多种领域，而DALL-E则专注于文本-图像对的数据集。因此，DALL-E能够通过自然语言描述来创建图像，实现类似于GPT-3创建网站和故事的功能。

DALL-E和GPT-3之间存在着明显的相似性，它们都是基于transformer的语言模型，能够接收文本和图像作为输入，并转化为各种形式的图像输出。其中，DALL-E具备编辑图像中特定对象属性的能力，这在原内容中也有所体现。进一步地，它甚至能同时控制多个对象及其属性，这无疑是一项极其复杂的工作。因为网络需要理解各个对象之间的关系，并在这种理解的基础上生成相应的图像。以“一个戴着蓝帽子、红手套、绿衬衫、黄裤子的一个小企鹅的表情符号”为例，想要让网络准确理解并生成这样的图像，就需要所有组件的理解，包括对象的种类、颜色，甚至对象的位置。这就意味着，企鹅的手套必须是红色的，而且必须戴在手上，其他的企鹅也是如此。考虑到这个任务的复杂性，我们可以想象，DALL-E生成的图像会有多么精确和生动。

我们可以提供一个更加直观的例子，即在网络中输入“一个较小的红色正方形放置在一个较大的绿色正方形之上”。尽管这看起来非常简单，但实现它却需要高度的专业知识。尽管这个例子并非完美无缺，但我们已经取得了很大的进步，距离完全掌握这项技能仅有一步之遥！

DALL-E还可以改变场景的视角。例如，这里我们发送了“山上一只鹰的特写”，这就是结果。

这里，我们把老鹰换成了狐狸，这就是生成的结果。

显然，一个富有诗意的标题能引发无数模糊不清的图像。例如，“一只狐狸在日出时分坐在田野中”的画面，具体内容却难以言说。变量因素众多，包括狐狸自身的特征、颜色、视线方向、位置等等，甚至未涉及画作背景与风格。幸运的是，得益于其与GPT-3的相似性，我们能够为输入文本增加细节，从而生成的结果更加贴近我们的期望，就如同这里展示的不同风格的画作一般。

这项技术还能够运用互不相干的元素来创建图像，例如制作一个逼真的牛油果椅子，或者生成原始的、难以察觉的插图，如一种新的表情符号。

简而言之，他们将DALL-E描述为一个简单的解码器转换器。

如前所述，DALL-E网络接收文本和图像作为其输入标记形式，这与GPT-3的作用类似，旨在生成转换后的图像。正如我在先前的视频中提到的，该网络利用自我注意力和稀疏注意力来理解和处理文本的上下文以及图像的特点。尽管关于其具体工作原理或训练过程的详细信息尚不多，但研究人员表示将发表一篇论文以阐述他们的方法。简言之，DALL-E网络的成功表明，通过语言操纵视觉概念的可能性已经得到证实，我对此感到非常兴奋，并期待着他们即将发布的论文。

open AI地址：https://openai.com/blog/dall-e/

deephub翻译组

OpenAI, GPT-3, DALL-E, image generation