简洁、生动,图解「老画师」DALL-E 2的工作原理
Midjourney

简洁、生动,图解「老画师」DALL-E 2的工作原理

选自assemblyai 作者:Ryan OConnor 机器之心编译 编辑:蛋酱 效果惊艳的 DALL-E 2,到底是怎么工作的? 2022 年 4 月初,OpenAI 的开创性模型 DALL-E 2 登场,为图像生成和处理领域树立了新的标杆。只需输入简短的文字 prompt,DALL-E 2 就可以生成全新的图像,这些图像以语义上十分合理的方式将不同且不相关的对象组合起来,就像通过输入 prompt「a bowl of soup that is a portal to another dimension as digital art」,便生成了下面的图像。 DALL-E 2 甚至可以修改现有图像,创建处保有其显著特征的图像变体,并在两个输入图像之间进行插值。DALL-E 2 令人印象深刻的结果让许多人想知道,这样一个强大的模型究竟是如何工作的。 在本文中,我们将深入了解 DALL-E 2 如何创造出众多令人惊艳的图像。将提供大量背景信息,并且解释级别将涵盖范围,因此本文适合具有多个机器学习经验级别的读者。 总体来说,DALL-E 2 的亮点如下: 1....
Midjourney 出图效果总比别人差?看看是不是这3点没做好!
Midjourney

Midjourney 出图效果总比别人差?看看是不是这3点没做好!

大家好,我是花生~ 很多小伙伴都会在「优设 AI 绘画交流群」以及文章评论区中非常积极地和我探讨Midjourney的使用问题,我在帮助大家的同时自己也学到了不少新的技巧。今天就写一篇文章解释 3 个比较常见的疑问,希望对大家有帮助。 一、人物面部模糊 问题描述:在生成人物全身图的时候,面部很模糊,五官特别是眼睛看着很不自然。尝试过垫图、生成变体、局部重绘等方式,都没有办法修复这个问题。 生成人物全身图时面部效果差是一个目前 Midjourney 的真实短板之一,很多用户都向官方反馈了这个问题,而针对它的优化也已经被提上日程,所以这个问题应该很快会被解决。而之所以会出现这种问题,是因为全身图中面部占太小,没有足够的像素来生成精致的细节。 一般来说一张图像的分辨率越高,在相同显示面积内的像素点就越多,图像细节就越丰富,看起来也就越清晰。以 Midjourney 默认的 1024*1024 分辨率来说,如果直接生成一张人物面部的特写图像,那么至少会有 30% 的像素点用于生成面部,可以保证五官细节清晰;而在生成全身图时,面部能分配到像素点可能不到 10%,也就无法精致的细节了,导致脸很模糊。 所以我们目前可以通过一些其他的功能来解决这个问题,比如先生成针对面部的特写,然后通过 reframe 功能(原来的 Pan/Zoom)对图像进行外绘拓展,这样就能优先保证五官的细节,是效果比较好的一种方式。 我还测试过另外一种方法也有一定的面部修复作用,即用 Midjourney 自带的 Creative Upscale 来提升面部精度。因为 Creative Upscale 在放大图像时,会在图像中重新添加一些的噪点再生成图像,所以它放大的图像会与原图有所不同,但细节更丰富,面部细节也能在这个过程中得到优化。 二、局部重绘不起作用 问题描述:在使用 Repaint 局部重绘修改或者添加元素时,效果并不好甚至根本不起作用。 一般来说出现这种情况主要是因为选择的重绘区域面积太小,导致 Midjourney 没有足够的空间生成新的细节。官方建议框选的区域要占图像总面积的 20% – 50%。下图我测试的结果,可以看到在框选区域变大之后,画面出现新元素的几率也变高了。因此即使你要添加的物体本身很小,但是选择重绘区域时还是尽量大一些。 此外提示词也会对生成效果有一定的影响,局部重绘的提示词要保持简短直接,比如你想修改人物的衣物,就只写 “a white dress”...
博士意外发现秘密:DALL-E 2自创语言,人看不懂但能生成特定图像
Midjourney

博士意外发现秘密:DALL-E 2自创语言,人看不懂但能生成特定图像

丰色 金磊 发自 凹非寺 量子位 | 公众号 QbitAI DALL·E 2,这个AI竟然自己搞了一套秘密语言。 例如这两个非常奇怪的词组: Apoploe vesrreaitais(下文简称A)Contarra ccetnxniams luryca tanniounons(下文简称C) (翻译软件都会崩溃,可以去试试) 但到了DALL·E 2这里,画风却截然不同。 在它看来,A就是“鸟类”的意思,而C则是“害虫”之意。 于是乎,如果给DALL·E 2喂上一句:A eat C,那么它的打开方式就会这样: 清一色产出的图片,都是鸟吃害虫相关。 而且你要是跟DALL·E 2说,生成“两只鲸鱼讨论食物,带字幕”,结果会是这样: 图里的“Wa ch zod rea”,在DALL·E 2的词库里竟然是“食物”的意思! 此事一经曝光,瞬间引发了众多网友的热议。 甚至还有人提出,有了这些秘密语言,可以绕开DALL·E 2的“违禁词过滤器”,从而生成一些有争议的图像了。 (搞事情!) 所以,关于DALL·E 2的秘密咒语,到底是怎么一回事? 一次意外的发现 发现这个问题的是国外一名计算机专业的博士生。 他注意到DALL-E 2模型在遇到需要给出带文字的图像时,总是会出现一些奇怪的单词。 比如输入这句:“两个农民谈论蔬菜,带字幕(Two farmers talking about...
AI绘画软件Stable Diffusion文生图详解
Midjourney

AI绘画软件Stable Diffusion文生图详解

AI绘画软件Stable Diffusion文生图详解 一、Stable Diffusion概述 Stable Diffusion是一种先进的深度学习模型,由CompVis、Stability AI和LAION的研究人员和工程师共同创建。该模型于2022年发布,是文本到图像生成领域的一个里程碑。Stable Diffusion利用文本描述生成高质量图像,不仅运行速度快,而且对资源和内存的要求相对较低,使其在实际应用中具有广泛的前景。 二、文生图原理 Stable Diffusion文生图的原理基于扩散模型(Diffusion Model),这是一种生成式模型,通过逐步添加或去除噪声来生成或还原图像。具体来说,Stable Diffusion文生图的原理可以细分为以下几个关键部分: 1. 文本编码器(Text Encoder) 文本编码器是Stable Diffusion模型中的第一个组件,负责将输入的文本描述转换成计算机可理解的数学表示。这通常是通过一种特殊的Transformer语言模型(具体来说是CLIP模型的文本编码器)实现的。输入文本被转换成一系列嵌入向量,每个向量包含丰富的语义信息,用于指导后续的图像生成过程。 2. 图像信息创建者(Image Information Creator) 图像信息创建者是Stable Diffusion模型的核心部分,它负责根据文本编码器的输出和初始噪声生成图像信息。这一过程在潜在空间(Latent Space)中进行,避免了直接在像素空间操作的高计算成本。图像信息创建者主要由UNet神经网络和一个调度算法组成,通过多步迭代逐步去除噪声并注入语义信息,最终生成包含丰富图像信息的潜在向量。 3. 图像解码器(Image Decoder) 图像解码器是Stable Diffusion模型的最后一个组件,负责将图像信息创建者生成的潜在向量转换成最终的像素图像。解码器仅在生成过程的最后阶段运行一次,根据潜在向量绘制出高质量的图像。 4. 扩散过程(Diffusion Process) 扩散过程是Stable Diffusion模型的核心机制,它模拟了物理学中的扩散现象。在前向扩散阶段,模型向原始图像中逐步添加噪声,使其逐渐变为纯噪声图像。在逆扩散阶段,模型则逐步去除噪声,同时根据文本编码器的指导生成与文本描述匹配的图像。通过这一过程,Stable Diffusion能够在保持图像特征的同时增强图像细节。 三、使用方法 Stable Diffusion的使用方法相对直观,主要包括以下几个步骤: 1. 准备环境 首先,需要准备一个支持Stable Diffusion运行的环境。这通常包括安装必要的库和框架(如PyTorch、CUDA等),以及下载预训练的Stable Diffusion模型。用户也可以选择使用云端服务或本地部署的方式来运行Stable Diffusion。 2....