Stable Diffusion低显存也能跑大图了,再也不用怕爆显存!
Midjourney

Stable Diffusion低显存也能跑大图了,再也不用怕爆显存!

Stable Diffusion(以下简称SD)是一款很强大的AI绘画软件,很多人都会拿SD和MJ(Midjourney)作对比,其中最重要的一点就是使用门槛上,SD需要最低也是4GB的显存,如果显存低了是没办法获得很好的体验的,最佳的配置是12-24GB 基本上所有的功能都能用。现在pkuliyi2015大佬开发了一个免费插件Tiled Diffusion(插件安装目录文件夹:extensions),可以大幅度减少SD生图所需的显存,其工作原理就是将一张图不同的块,通过连续生成图块,然后再合并成一张图,再也不用–lowvram 或 –medvram指令降低作画的质量了。 Tiled Diffusion界面 主要功能: 1、可以轻松做出超高质量的图像放大,即使是8K的图 也只需要12G显存。 2、当你不想大幅度的改变人像时,特别适合于人像放大,可以达到无损放大的程度。 3、X4的放大比例,如果你的电脑平时只敢开X2放大,现在X4放大也不会爆显存了,去噪强度建议设置0.4。 4、Img2img 放大,默认参数下,选择Tiled Diffusion的X4放大,只需要1分钟 左右,如果是X2放大,只需要10秒。 5、使用ControlNet插件的canny 2560 * 1280重绘,效果如图: canny线稿图 canny重绘效果图 安装教程: 软件直装 :打开SD网页版地址,选择拓展-从网址安装-输入插件地址: https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111 点击“安装”,如果国内网络不稳定,可以在github前面加个K变成kgithub,就会变成从国内的网站安装,速度大大提高。 sd插件安装方法 压缩包安装:打开项目地址,点击code,然后点击下面弹出来的download zip 这样就会用压缩包的形式下载下来,再把压缩包解压到extensions文件夹里面即可。这样安装后期更新还是一样的方法,PS:不如网址直接安装方便,点击SD拓展-在线更新即可自动下载更新了。 sd插件安装方法 使用方法: 插件安装后,你可以直接使用软件默认的设置,只需要打开“启用”即可,英文版的是打开Enable。如果生成的图像比较模糊或者颜色灰暗,需要打开模型对应的VAE进行颜色修复。如果还是爆显存了,需要把各个tile调小。 Tiled Diffusion示例图 如图所示,一张完整的图都被分成了不同的块,这个插件使用起来就会把原图分成的小块一遍一遍的分割和融合,最终生成我们想要的图,如果你没有生成高清大图的需求,建议关掉这个功能,这会让你生成图的速度变慢。 块的大小和重叠数量决定了生成图的速度,如果你把块的宽度和高度设置的很低就会生成更多的小块,需要的时间也就更多,建议块的宽度和高度设置96或者128以提高生成速度,分块重叠个数建议在使用MultiDiffusion功能的时候设置32或者48,使用Mixture of Diffusers 选择16或32,与 MultiDiffusion 相比,Mixture of Diffusers...
Midjourney和stable diffusion的区别你知道吗
Midjourney

Midjourney和stable diffusion的区别你知道吗

Midjourney和Stable Diffusion都是图像生成领域的预训练语言模型,但是它们在一些方面有所不同。以下是它们之间的详细比较: 模型结构: Midjourney是基于CLIP和VQGAN模型的组合,完全在Discord平台上运行。相比之下,Stable Diffusion则采用了cliptext(基于gpt的模型)。 Stable Diffusion生成的图 预训练数据: Midjourney和Stable Diffusion都使用大规模的文本数据进行预训练。Midjourney使用了来自维基百科和其他互联网来源的约40TB的数据进行预训练,而Stable Diffusion则使用了一些类似维基百科的数据集以及一些其他来源的数据集进行预训练。 Midjourney生成的图 模型参数: Midjourney是目前已知参数最多的预训练图像模型之一,它拥有350亿个参数。Stable Diffusion的模型参数相对较少,为24亿个。 生成能力: Midjourney和Stable Diffusion都可以生成高质量的图像。Midjourney在生成长篇文章和段落时表现很好,而Stable Diffusion则在生成短文本和多样化的图像上表现良好。这两个模型都可以生成高度仿真的图像,并能够在多个任务上进行微调。 可解释性: Stable Diffusion模型具有更好的可解释性,因为它使用了自回归模型和自编码器模型的结合。这种结构使得Stable Diffusion可以通过一种称为反向Diffusion的技术进行生成和控制。 训练效率: Midjourney的训练时间可能会更长,因为它的参数数量更多,需要更多的计算资源。相比之下,Stable Diffusion的训练时间可能较短。 Stable Diffusion生成的图 总的来说,Midjourney和Stable Diffusion都是非常强大的预训练图像模型。Midjourney对语句的训练更精准,图片存储更友好;图片跑出来后调整空间不大,只能通过垫图继续“精准”一点,建议ps会更快,而Stable Diffusion则跑小图会更快,目前一次最多可以跑出9张图,垫图的时候可以使用画笔涂抹区域,更人性化,Stable Diffusion的结构使得它更容易进行解释和控制,因此对于某些应用程序来说可能更具有吸引力。
原创
            Midjourney系列:阳台绝美性感摄影
Midjourney

原创 Midjourney系列:阳台绝美性感摄影

在巴黎的一个宁静黄昏,一位女士坐在阳台上,远眺着这座城市的标志——埃菲尔铁塔。她身穿一件紫罗兰色的晚礼服,如同夜幕降临时最后一缕柔和光线的化身,衣裙随风轻轻摇曳,她的目光深邃而又遥远。这幅画面是如此完美,仿佛跃出了一本精美的时尚杂志。女士的发型、妆容以及服饰细节都被处理得恰到好处,每一个元素都与背后的巴黎街景相得益彰。从她的姿态到她微微垂下的眼帘,无不流露出一种沉静与内省的氛围。 然而,她的存在不仅仅是一幅静态的画,而是一个充满故事的生动场景。她似乎在等待着某些东西——也许是某个重要的人物,或者是即将发生的某个事件。美女坐在阳台上,通过她的眼睛,我们可以窥见一世纪以来这座城市的变迁。她的着装虽然属于现代,却也向过去的经典致敬。 她是谁?她在等待什么?她的内心是平静还是波澜起伏?这张照片留给我们无限的空间去探索和想象。巴黎——这个时尚之都,历史与现代交织的地方,每一个角落都有它独特的美。这位女士就坐在这个城市的心脏地带,成为了巴黎无尽魅力的一部分。通过这张照片,我们可以感受到巴黎的浪漫,她的历史,以及那种只属于夜晚的神秘感。 照片中的女士与这座城市融为一体,她成为了巴黎不可分割的一部分,她的优雅与城市的风格互为映衬。这不仅仅是一张照片,更是一种生活态度的展示。这些照片是一个关于巴黎,关于时尚,关于个人故事的视觉叙事。它不仅仅捕捉了一个瞬间,更开启了一个故事的序幕,让我们沉浸在那个宁静黄昏的巴黎阳台上,随着她的视线一起遥望埃菲尔铁塔,感受城市的脉动,和时间的流转。 这张照片的构图是精心设计的。女士位于画面的黄金分割点上,这是摄影中常用的一种技巧,能够带来画面的平衡感和视觉上的舒适。她的身姿与远处的塔尖相呼应,塔尖上的直线和她身上服饰的曲线形成对比,增强了画面的动态感和深度。 色彩的运用也是这幅作品中的一个亮点。紫罗兰色的裙装在黄昏的光影中显得格外鲜艳,而背景的蓝色天空与黄色的余晖相交融,形成了一种温暖与冷静并存的氛围。色彩对比和过渡处理得恰到好处,既展示了晚礼服的华丽,也呼应了巴黎的浪漫。 光线的处理对于这张照片来说至关重要。巴黎的黄昏,有着一种特别的魔力,摄影师巧妙地利用了自然光线,让模特的脸部和服饰细节得到了恰当的照亮,同时保留了背景的色彩和细节。这样的光影效果,使得整个画面既有立体感,又不失细腻。 返回搜狐,查看更多 责任编辑:
拒绝信息差!一篇文章说清Stable Diffusion3到底值不值得冲
Midjourney

拒绝信息差!一篇文章说清Stable Diffusion3到底值不值得冲

就在几天前,Stability AI正式开源了Stable Diffusion 3 Medium(以下简称SD3M)模型和适配CLIP文件。这家身处风雨飘摇中的公司,在最近的一年里一直处于破产边缘,就连创始人兼CEO也顶不住压力提桶跑路。 即便这样,它依然被誉为生成式AI的Top3之一,而另外两家分别是OpenAI和Midjourney……没错,Stability AI就是那个唯一的开源公司。真正的Open Source半死不活,闭源公司万人追捧,这就是真实的世界,首先挣钱,再谈尊严。 SDXL发布的时候,我就写过深度测评,这次同样拒绝信息差,没有废话,给你一个SD3M最直观的感受。 以下只讨论官方发布的基础版本模型,不包括开源社区发布的融合版。 Q:作为当前主流SD1.5,SDXL与SD3M有什么区别? A:主要有三点区别 最显著的是模型规模和参数: SD1.5参数为8600万;SDXL包含2.6亿参数,是1.5的3倍;SD3的模型参数范围从8亿到80亿,对应模型体积也不相同。 显而易见,以SD3M模型本体4GB的大小,在它之上至少还有1-2个体积更大的版本(已知SD3 Ultra存在)没有开源。 其次是语义理解能力: SD1.5虽然采用了CLIP模型将自然语言与图像对应,但实际效果只能说聊胜于无,稍微复杂一点的长句就歇菜; SDXL有所改进,一个CLIP不够两个来凑,能理解长句,还能勉强画出特定语种的文字,比如英文; SD3M更进一步,直接在训练时就引入Transformer,直接搭建Diffusion-Transformer俗称DiT的结构(没错年初红极一时的Sora也是这个路径),带来的好处显而易见,就是真的能“听懂人话”,这里暂且不表,下一段再展开来说。 最后是出图质量: 正如真理只在大炮射程之内,画质的高低取决于像素。能堆出的像素越多,画面看起来就越精致,简单粗暴。 SD1.5默认像素512×512,如果过度提高像素(1024以上),很多时候会出现畸变导致画面崩坏; SDXL默认像素1024起步,画面精细度肉眼可见的提高,但相比之下对GPU资源的消耗倍增,经常炼丹的朋友应该深有感受,动辄700m,大至1.3G的微调模型,真的难顶; SD3M同样是1024起步,画质好于SDXL,主要是在对颜色和光影的把控上更为精准,8G显存就能带得动,直觉上感到这会是SDXL的平行替代品。 Q:相比起前几个版本,SD3M最显著的突破在哪里? A:重点就在DiT这里,更具体一点,官方将其称为Multimodal Diffusion Transformer (MMDiT) 流程图看上去很复杂,实际上翻译成人话,就是:模型现在更能看懂你想表达的意思。 经常抽卡的朋友应该深有体会,在文生图时,如果不加入控制条件,你让人物头戴一束花环,那么大概率在图的背景中同样会出现鲜花;又比如描述人物穿着的上衣绣着小猫图案,那么很大的可能这只小猫会出现在人的脚边;更不必说同一场景中描述多人物,简直就是一场难以形容的灾难。 大语言模型的加入解决了一个重要的问题:语义理解。 经常研究U-Net潜空间的朋友都知道,从SD1.5开始潜空间深度学习是成对的,一边是文字标签caption,一边是对应的图像表达,经过多轮加噪声和去像素,最终保存成经过预训练的文件。 然而现实世界中很少有词或词组是唯一概念,比如我们说“这只猫真好看”,有可能这是一只真的猫,有可能是一只玩偶,还有可能只是鞋子上的Hello Kitty……离开了对上下文的语义理解,即便有插件辅助,抽卡依然是很痛苦的事。 举个具体的例子,这样一段提示词: 三人走在城市街道上,华人,左边的男人穿着浅红色夹克和蓝色牛仔裤,拿着相机,中间的女人穿着酒红色毛衣,灰色裙子,戴着眼镜,右边的女人穿着海军蓝连衣裙,拿着手提包,天空晴朗,城市景观,逼真风格, Three people walk in the city street,asian chinese,the...