DALL-E 2的工作原理原来是这样!
CLIP+修改版GLIDE双管齐下。 作者 | Ryan OConnor 编译丨王玥 编辑 | 陈彩娴 OpenAI的模型DALL-E 2于本月初发布,刚一亮相,便在图像生成和图像处理领域卷起了新的风暴。 只需要给到寥寥几句文本提示,DALL-E 2就可以按文本指示生成全新图像,甚至能将毫不相关的物体以看似合理的语义方式组合在一起。 比如用户输入提示“一碗汤是另一个次元的入口”后,DALL-E 2便生成了以下的魔幻图片。 “一碗汤是另一个次元的入口” 图源:https://openai.com/dall-e-2/ DALL-E 2不仅能按用户指令生成明明魔幻,却又看着十分合理不明觉厉的图片。作为一款强大的模型,目前我们已知DALL-E 2还可以: 生成特定艺术风格的图像,仿佛出自该种艺术风格的画家之手,十分原汁原味! 保持一张图片显著特征的情况下,生成该图片的多种变体,每一种看起来都十分自然; 修改现有图像而不露一点痕迹,天衣无缝。 感觉有了DALL-E 2,艺术家都可以下岗了。 DALL-E 2目前曝光的功能令人瞠目结舌,不禁激起了众多AI爱好者的讨论,这样一个强大模型,它的工作原理到底是什么?! 1工作原理:简单粗暴 “一只在吹喷火喇叭的柯基”——DALL-E 2图片生成流程解析 图源:https://arxiv.org/abs/2204.06125 针对图片生成这一功能来说,DALL-E 2的工作原理剖析出来看似并不复杂: 首先,将文本提示输入文本编码器,该训练过的编码器便将文本提示映射到表示空间。 接下来,称为先验的模型将文本编码映射到相应的图像编码,图像编码捕获文本编码中包含的提示的语义信息。 最后,图像解码模型随机生成一幅从视觉上表现该语义信息的图像。 2工作细节:处处皆奥妙 可是以上步骤说起来简单,分开看来却是每一步都有很大难度,让我们来模拟DALL-E 2的工作流程,看看究竟每一步都是怎么走通的。 我们的第一步是先看看DALL-E 2是怎么学习把文本和视觉图像联系起来的。 第一步 – 把文本和视觉图像联系起来 输入“泰迪熊在时代广场滑滑板”的文字提示后,DALL-E 2生成了下图: 图源:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/ DALL-E 2是怎么知道“泰迪熊”这个文本概念在视觉空间里是什么样子的?...