DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图
Midjourney

DALL·E这波超进化,画质艺术感双飞升,还学会了无痕P图

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 把椅子上的萌犬P成猫猫,需要几步? 第一步,圈出狗狗。第二步,告诉AI你的需求。鼠标一点,齐活。 这位AI P图大师,其实是位老朋友——OpenAI风靡全球的那位DALL·E。 现在,它刚刚完成了“2.0超进化”。不仅新学了一手出神入化的P图绝技,创作质量也有了飞跃式的提升。 话不多说,直接看作品感受一下~ 这是DALL·E 2在“星云爆炸状柯基头”这一提示下的创作出来的画作: 这幅萨尔瓦多·达利的画像,是不是有点萨尔瓦多·达利内味儿了? 跟初代DALL·E比起来,着实是画质与艺术感双双飞升了。 △“日出时分安坐在田野里的狐狸,莫奈风格” 所以,研究人员具体如何点亮了DALL·E的新技能点? CLIP+扩散模型 DALL·E此番进化,简单来说就是分辨率更高了,延迟更低了。 此外,还有更新2大新功能: 首先,在更细粒度上实现文本→图像功能。 也就是说,DALL·E 2可以根据自然语言提示进行P图。在P图的过程中,还会考虑阴影、反射、纹理等元素的变化。 比如在左图标“2”的位置P一个火烈鸟泳圈,DALL-E 2会把水面倒影这种细节也处理到位。 其次,是可以在保留原作核心元素的基础之上,赋予原作船新的风格。 并且生成画面的画质是DALL·E 1的4倍,即从256×256提升到了1024×1024。 CLIP是原版DALL·E功能实现的基础,是一个负责给图像重排序的模型,其零样本学习能力已经在各种视觉和语言任务上大放异彩。 而扩散模型的特点在于,在牺牲多样性的前提下,能大大提升生成图像的逼真度。 于是,OpenAI的研究人员设计了这样一种方案: 在这个名为unCLIP的架构中,CLIP文本嵌入首先会被喂给自回归或扩散先验,以产生一个图像嵌入。 而后,这个嵌入会被用来调节扩散编码器,以生成最终的图像。 OpenAI解释称,DALL·E能够get图像和用于描述画面的文本之间的关系。其图像的生成是在“扩散”过程中完成的,可以理解为是从“一堆点”出发,用越来越多的细节去把图像填充完整。 研究人员将DALL·E 2与DALL·E、GLIDE等模型进行了对比。 实验结果显示,DALL·E 2的图像生成质量与GLIDE相当,但DALL·E的生成结果更具多样性。 目前,DALL·E 2并未对公众开放,不过如果你感兴趣,可以在线注册申请一发~ 项目地址:https://openai.com/dall-e-2/#demos — 完 —...
ChatGPT4.0的DALL-E 3的全面攻略!
Midjourney

ChatGPT4.0的DALL-E 3的全面攻略!

想要制作AI图像,首先要做的就是选择一个合适的绘画软件。我应该使用 Midjourney、DALL-E 3、Adobe Firefly 2 还是 Stable Diffusion? 主流 AI 绘画软件比较如下: 而DALL-E 3的出现,可以说彻底改变了游戏规则。现在,我们将深入探索一下DALL-E 3这个”革命”产品。 简单、大量的实际用例、细节易控制、支持中文、审查严格,还有最重要的——它是免费的。 (一)DALL-E 3提供了两种使用方式: 付费版需要成为ChatGPT的plus订阅用户免费版只需要通过newbing链接使用即可(已更名为Copilot) (二)DALL-E 3基本使用: 1.在DALL-E 3中,你可以自由发挥创意,为你的图像添加各种元素。你可以给出中文提示,DALL-E 3会自动转化为更详细的英文提示并生成多个图像 比如输入中文提示语:“画一个 18 岁的中国美少女” 2.指定长宽比,使图像满足你的特殊需求,你可以根据你的想象力,形容各种复杂的场景 提示语:“以图 4 为基础进行修改,3:2,生成少女 喜、怒、哀、乐,四张图” 3.为你的图像定制风格,指定画家、摄影家、图片风格等参数。 提示语:“1940 年代的卡通,画面中有一个机器人拿着一只冒着热气的咖啡杯,上面有一个闪电符号,文字气泡上写着“need love”,坐在咖啡店内的窗边桌子旁。” 提示语:“一尊折纸雕塑,描绘了一个骑士手持盾牌与一只喷火的龙激战的场景,轻微景深效果。” (三)ChatGPT+Dalle3 系统提示 1.限定词:DALL-E 3的系统在创建图像时,有一些政策和指导方针需要遵守 描述不是英文则需要翻译成英文,不要因用户需求而创建超过4个图像,不要创建政客或其他公众人物的形象等等。这些限定词都是为了让用户更好的使用DALL-E 3。 2.参数组合:在一次成功的AI绘画中,你需要考虑以下几个因素: 主题、图片类型、分辨率、图片数量、种子值和奇怪度。 例如,“真实的照片,Kpop girls,在海滩,举着牌子,写着“free...
文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM’23
Midjourney

文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM’23

扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。 但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。 为了提高模型理解叙述性提示的能力,中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter,即语义理解和推理适配器,可应用于预训练的扩散模型。 论文地址:https://arxiv.org/abs/2305.05189 开源地址:https://github.com/Qrange-group/SUR-adapter 为了实现该目标,研究人员首先收集并标注了一个数据集SURD,包含超过5.7万个语义校正的多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。  然后,研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。 通过集成多个LLM和预训练扩散模型来进行实验,结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述,并且不会降低图像质量。 该方法可以使文本到图像的扩散模型更容易使用,具有更好的用户体验,可以进一步推进用户友好的文本到图像生成模型的发展,弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。 背景介绍 目前,以Stable diffusion为代表的文生图 (text-to-image)预训练扩散模型已经成为目前AIGC领域最重要的基础模型之一,在包括图像编辑、视频生成、3D对象生成等任务当中发挥着巨大的作用。 然而目前的这些预训练扩散模型的语义能力主要依赖于CLIP等文本编码器 (text encoder),其语义理解能力关系到扩散模型的生成效果。 本文首先以视觉问答任务(VQA)中常用问题类别的”Counting (计数)”, “Color (颜色)”以及”Action (动作)”构造相应的本文提示来人工统计并测试Stable diffusion的图文匹配准确度。 下表给出了所构造的各种prompt的例子。 结果如下表所示,文章揭示了目前文生图预训练扩散模型有严重的语义理解问题,大量问题的图文匹配准确度不足50%,甚至在一些问题下,准确度只有0%。 因此,需要想办法增强预训练扩散模型中本文编码器的语义能力以获得符合文本生成条件的图像。 方法概述 1. 数据准备 首先从常用的扩散模型在线网站lexica.art,civitai.com,stablediffusionweb中大量获取图片文本对,并清洗筛选获得超过57000张高质量 (complex prompt, simple prompt, image) 三元组数据,并构成SURD数据集。 如图所示,complex prompt是指生成image时扩散模型所需要的文本提示条件,一般这些文本提示带有复杂的格式和描述。simple prompt是通过BLIP对image生成的文本描述,是一种符合人类描述的语言格式。 一般来说符合正常人类语言描述的simple prompt很难让扩散模型生成足够符合语义的图像,而complex prompt(对此用户也戏称之为扩散模型的“咒语”)则可以达到令人满意的效果。 2. 大语言模型语义蒸馏 本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。 其中大语言模型选用的是不同大小的LLaMA模型。扩散模型的UNet部分在整个训练过程中的参数都是冻结的。 3....
文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等
Midjourney

文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等

Latent Consistency Models(潜一致性模型)是一个以生成速度为主要亮点的图像生成架构。 和需要多步迭代传统的扩散模型(如Stable Diffusion)不同,LCM仅用1 – 4步即可达到传统模型30步左右的效果。 由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明,LCM将文生图生成速度提升了5-10倍,世界自此迈入实时生成式AI的时代。 LCM-LoRA: https://huggingface.co/papers/2311.05556 项目主页:https://latent-consistency-models.github.io/ Stable Diffusion杀手:LCM 在LCM出现之前, 不同团队在各种方向探索了五花八门的SD1.5和SDXL替代方案。 这些项目各有特色,但都存在着不兼容LoRA和不完全兼容Stable Diffusion生态的硬伤。按发布时间顺序,比较重要的项目有: 模型名称 介绍 生成速度 训练难度 SD生态兼容性 DeepFloyd IF 高质量、可生成文字,但架构复杂 更慢 不兼容 Kandinsky 2.2 比SDXL发布更早且质量同样高;兼容ControlNet 类似 不兼容模型和LoRA,兼容ControlNet等部分插件 Wuerstchen V2 质量和SDXL类似 2x – 2.5x 更容易 不兼容 SSD-1B 由Segmind蒸馏自SDXL,质量略微下降 1.6x 更容易 部分兼容 PixArt-α...