Stable Diffusion的入门介绍和使用教程
Midjourney

Stable Diffusion的入门介绍和使用教程

来源:DeepHuhb IMBA 本文约4800字,建议阅读9分钟本文介绍了Stable Diffusion是一个文本到图像的潜在扩散模型的入门介绍及使用教程。 Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512×512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它,如下图所示。 如果你足够聪明和有创造力,你可以创造一系列的图像,然后形成一个视频。例如,Xander Steenbrugge使用它和上图所示的输入提示创建了令人惊叹的《穿越时间》。 以下是他用来创作这幅创造性艺术作品的灵感和文本: 本文首先介绍什么是Stable Diffusion,并讨论它的主要组成部分。然后我们将使用模型以三种不同的方式创建图像,这三种方式从更简单到复杂。 Stable Diffusion Stable Diffusion是一种机器学习模型,它经过训练可以逐步对随机高斯噪声进行去噪以获得感兴趣的样本,例如生成图像。 扩散模型有一个主要的缺点就是去噪过程的时间和内存消耗都非常昂贵。这会使进程变慢,并消耗大量内存。主要原因是它们在像素空间中运行,特别是在生成高分辨率图像时。 Latent diffusion通过在较低维度的潜空间上应用扩散过程而不是使用实际的像素空间来减少内存和计算成本。所以Stable Diffusion引入了Latent diffusion的方式来解决这一问题计算代价昂贵的问题。 1、Latent diffusion的主要组成部分 Latent diffusion有三个主要组成部分: 自动编码器(VAE) 自动编码器(VAE)由两个主要部分组成:编码器和解码器。编码器将把图像转换成低维的潜在表示形式,该表示形式将作为下一个组件U_Net的输入。解码器将做相反的事情,它将把潜在的表示转换回图像。 在Latent diffusion训练过程中,利用编码器获得正向扩散过程中输入图像的潜表示(latent)。而在推理过程中,VAE解码器将把潜信号转换回图像。 U-Net U-Net也包括编码器和解码器两部分,两者都由ResNet块组成。编码器将图像表示压缩为低分辨率图像,解码器将低分辨率解码回高分辨率图像。 为了防止U-Net在下采样时丢失重要信息,通常在编码器的下采样的ResNet和解码器的上采样ResNet之间添加了捷径的连接。 在Stable Diffusion的U-Net中添加了交叉注意层对文本嵌入的输出进行调节。交叉注意层被添加到U-Net的编码器和解码器ResNet块之间。 Text-Encoder 文本编码器将把输入文字提示转换为U-Net可以理解的嵌入空间,这是一个简单的基于transformer的编码器,它将标记序列映射到潜在文本嵌入序列。从这里可以看到使用良好的文字提示以获得更好的预期输出。 为什么Latent Diffusion快速有效 Latent Diffusion之所以快速有效,是因为它的U-Net是在低维空间上工作的。与像素空间扩散相比,这降低了内存和计算复杂度。例如,一个(3,512,512)的图像在潜在空间中会变成(4,64,64),内存将会减少64倍。 Stable Diffusion的推理过程 首先,模型将潜在空间的随机种子和文本提示同时作为输入。然后使用潜在空间的种子生成大小为64×64的随机潜在图像表示,通过CLIP的文本编码器将输入的文本提示转换为大小为77×768的文本嵌入。 然后,使用U-Net 在以文本嵌入为条件的同时迭代地对随机潜在图像表示进行去噪。U-Net 的输出是噪声的残差,用于通过scheduler...
最牛AI艺术家Stable Diffusion有多值钱?种子轮融资即晋升独角兽
Midjourney

最牛AI艺术家Stable Diffusion有多值钱?种子轮融资即晋升独角兽

编辑:David 昕朋 【新智元导读】拳打DALL·E,脚踢人类艺术家的Stable Diffusion背后的公司Stability AI,种子轮融资1亿美元,估值10亿美元,一举晋升独角兽! 还记得前一阵子大火的AI大画家Stable Diffusion吗,对,就是那个在AI界压DALLE 2一头,在人类画作大赛一举夺冠的Stable Diffusion。 这个AI画家背后的老东家Stability AI,最近借着这波火出圈的热度,开启了种子轮融资,在一片冰冷的资本市场中,Stability AI本轮融资1.01亿美元,估值更是突破10亿美元,一举晋升独角兽! AI领域诞生的独角兽不少,但种子轮即晋升独角兽的,怕是真的不多。 对于这笔巨款,Stablibity AI计划为用户提供更多样的自定义版本,加大对超级计算能力的研发。同时,公司也会扩大团队规模。首席执行官Emad Mostaque表示,未来一年内,员工数量将从100人增加到约300人。 Stability AI的创始人兼首席执行官 Emad Mostaque 毕业于牛津大学,获得数学和计算机科学硕士学位,曾在多家对冲基金担任分析师,2020 年共同创立了 Stability AI。 推动本次融资可能由于Stability AI的运营成本居高不下,目前该公司拥有一个在 AWS 中运行的由 4,000 多个英伟达A100 GPU 组成的集群,用于训练包括 Stable Diffusion 在内的 AI 系统。 这个系统的维护成本相当高,据Business Insider报道称,Stability AI 的运营和云支出超过 5000 万美元。 而就在前不久,Mostaque本人还在采访中表达了对开源社区和员工掌控公司的坚定态度。 「除了我们的员工,没有人拥有任何投票权——亿万富翁、大型基金、政府或任何控制公司或我们支持的社区的人都不行。我们是完全独立的,我们计划使用我们的计算来加速开源基础AI。」 Stable...
探索图像生成新纪元:DALL·E2揭示深度学习魔力,只需简单文本,就能生成超现实视觉盛宴!GAN、
Midjourney

探索图像生成新纪元:DALL·E2揭示深度学习魔力,只需简单文本,就能生成超现实视觉盛宴!GAN、

文章介绍了OpenAI发布的DALL·E 2,一个通过输入文本生成高清图像的新一代人工智能模型。DALL·E 2凭借其惊艳效果和丰富的可玩性迅速成为AI社区焦点,展示了深度学习强大的图像生成能力。该技术基于GAN、VAE和扩散模型等先进架构,只需简单提示就能创作出超现实主义的视觉作品。文章将深入探讨这些新范式如何通过文本生成图像,并介绍了背景知识和技术细节,适合对图像生成感兴趣的读者。尽管GAN具有广泛应用,但训练稳定性问题突出,模式崩溃是个挑战,而变分自编码器作为改进方案,通过概率分布估计和KL散度来优化生成过程。
「揭秘扩散模型进化史:从DDPM到最新编辑技术,深度理解与未来展望」
Midjourney

「揭秘扩散模型进化史:从DDPM到最新编辑技术,深度理解与未来展望」

这篇文章以时间顺序和技术体系梳理了过去两年扩散模型在图像生成中的发展,包括DDPM时代的输入引导生成、基于CLIP的多模态引导以及最近基于Stable-Diffusion等模型的创新编辑技术。作者强调这些方法的发展快速且与DDIM中对扩散过程的加速控制有关,使得图像调控变得更为可控。然而,这种方法的局限性在于全局修改、无法改变空间布局和精细性质调整,适用场景有限。对于感兴趣的技术细节或合作,读者可参考作者提供的笔记链接或直接联系。