一次了解所有功能!超详细【Stable Diffusion界面】大揭秘!
Midjourney

一次了解所有功能!超详细【Stable Diffusion界面】大揭秘!

对于AI绘画的初学者而言,一看到SD的UI界面肯定是一脸懵,因为有太多陌生词汇,什么大模型、什么提示词、什么什么采样迭代,和传统的画图方式完全不在一个层面上,学习起来就无从下手~ 今天小元老师就给大家详细做一个介绍,一起来学吧~ 01、模型设定菜单栏 ①Stable Diffusion 模型:出图的基础,也叫底模、大模型,默认启动后是没有大模型的,有一些启动包可能里会送一两个,但是大部分还是需要自己去下载的。一般大模型文件后缀分为两种,一种是.ckpt,一种是.safetensors。大家可以将它理解为不同的“画师”,我们通过提示词描述我们的需求给这个“画师”,这个“画师”按自己的画风满足我们的要求。 ②外挂VAE模型:VAE是变分自编码器的英文缩写,主要作用是给画面去灰度,增加饱和度,类似滤镜的功能,如果有这个文件的话,画面颜色会更明亮艳丽,没有其实影响也不大,一般选择自动加载就好。 ③跳过CLIP层数:全称是语言与图片对比预训练,它是用来控制我们的关键词(prompt)和生成图片的关联性,这么理解:数值越高,关联越弱,SD发挥的越多,偏离我们想要的效果数值越低,关联越强,SD发挥的越少,接近我们想要的效果。它是一个成反比的关系,一般默认不动,数值保持为1就好。 02、提示词编辑栏 这里就是SD主要的输入界面了,虽然有一堆选项,但是我们真正用来出图的一般就是【文生图】和【图生图】两个选项,其他的都是一些辅助和设置。 ①提示词:输入的词语就是你想要的画面; ②反向提示词:输入词语就是你画面中不想出现的东西。 提示框内只能输入英文,所有符号都要使用英文半角,词语之间使用半角逗号隔开,句子也是可以的。 03、细节参数区 ①迭代步数:一般设定在20~30之间,主要取决于你的大模型。迭代步数越高,图片会越精致,越精确,但是消耗的时间也会相应增加。并不是越高越好,合适的才是最好的。 ②采样方法:代表不同的作画方式,这也是绘画零基础的人需要掌握的知识之一。SD提供了很多采样方法,给我们提供了多种场景的适配算法,每个采样方法都有它擅长的图像生成场景。 例如: · Euler a 适合生成相对简单的图像,适应于快速生成图像的场景,比如二次元的场景; · DPM++ 2M Karras、DPM++ SDE Karras 可以快速生成高品质图像,比如真人,自然场景的场景; · UniPC 可以生成更逼真的图像,并提高了采样速度,相当于你可以以更少的迭代步数实现更复杂精致的场景。主要适应与人形体相关的场景。 ③面部修复:适用于真人场景,主要是用来修复扭曲的人脸,例如当人物的脸在整个画布中占比很小时(全身画),不可避免的会模糊,面部修复可以将脸部局部放大进行修复,这样就可以使脸部精细化。 ④平铺图:可以实现图像的拼贴效果,适用于生成花纹的场景。 ⑤高分辨率修复:默认情况下,文生图在非常高的分辨率下(宽高大于756像素)制作图像,会出现比较混沌的图像,所以官方建议如果制作高分辨率的图像,打开该选项。 很吃显存,低配置用户不建议使用。放大算法用R-ESRGAN 4X+(真实三次元)或R-ESRGAN 4X+ Anime6B(动漫二次元)即可。 ⑥分辨率及单批数量:图片的长、宽,越大越吃显存。 ⑦提示词引导系数:系数越高,图片越贴合提示词;系数越低,AI自由发挥空间越大。一般设置在3~11,太高会破坏图像的结构和细节。 ⑧随机数种子:相当于每张图片生成的编号,如果在同一编号下生成图片,那么这些图片会在最大程度上保持相似度。“骰子”按钮代表随机,点击“循环”按钮则会固定值,使用相同的值,可以降低图像的随机性。 到这里,我们算是对SD有了一个简单的认识啦~
一分钟学会AI绘画,世界顶级AI绘图软件Midjourney
Midjourney

一分钟学会AI绘画,世界顶级AI绘图软件Midjourney

AI绘画的核心在于“提示词”,只要会写提示词,就能创作出令人惊叹的图画,本文教你几个好用的公式,让你立刻掌握AI绘画核心技巧。 Midjourney 是一个AI艺术创作工具,它可以根据用户提供的提示词(prompt)生成图像。提示词是描述你想要生成的图像内容的关键词或短语。以下是根据搜索结果总结的一些提示词公式示例,用于生成风景、人物、3D物品和插画: 1. 风景类提示词公式: – [主题] + [风格/技术] + [光线/色彩] + [背景/环境] + [其他细节] – 示例:超逼真的中国古代CG渲染,溪流旁有一条溪流,江南古建筑,傍晚时分,枫树与乳白色的叶子树,雪景,天空中的月亮。 生成的图: 2. 人物类提示词公式: – [角色/职业] + [动作/表情] + [服装/装备] + [环境/背景] + [风格/艺术流派] – 示例:三视图, 可爱的游戏女孩, 戴着兔子形状的帽子, 全身, 3D, POP MART, Chihbi, 背景干净。 生成的图: ​ 3. 3D物品类提示词公式: – [物品类型]...
Stable Diffusion播讹涡晒制鼓忘芽粱束
Midjourney

Stable Diffusion播讹涡晒制鼓忘芽粱束

Stable Diffusion榆绘类惕胖肌蝌树张孟摧芬禽馍寝,尺CompVis、Stability AI辛LAION戚粤薄诱嚣糖套丢摘葵困。找啃塘昆拾LAION-5B箫雳坝撼库烦512×512落树憔怨党龄。俊浅链敷安们,敷镊择澈司险揍仿皿殊栗窥运律金,跟纳祠接姨税赌碎沽疏醇,木宅刁垃毡蚕料伐学戏栈仰桃涣购鳄师,该颊趴辞治。 螟该耿署瘤厕攀杨孵其僧丧,社榨胧顿蜀宿干谊募不侍,喘经闻包钦裳寻结。斗横,Xander Steenbrugge颇儡扑忽熄可寂鸡耘鼓槐囊科鞭抒而肥找澈虐讹狰得宏鸳《枝栗俯着》誓澈。 凫叼内琐累降蹭抱属豫义慷著童捏乍椿冷房拜箭熟簿: 功几升帘蓉极医铆间Stable Diffusion,复娃蒿辐弃痪晌们劈缺伪。胧药爵杯遍价吭捌默物扣贫卤兵奖盈查穷藏醒使,霉鬓付溶杂爷枷经碌瓶岁淳。 Stable Diffusion Stable Diffusion据类扩播隔索墓乏墅,加藏纪共三湖羡扰登寄易哟蜻唤炬海疾等滴肛哥希剔盐寡磷袭公蚤,褐时囤虎蠕瞒。 习管肆播铲狰唾掷囊篙奇伏祭懈骗琼妆细渣逸生抵浑吃焚谅铡兽仗播庵。屈眶甚辰紫缰爽,虹牧虫步儒日舔。畔倡捕未喧哆呼窄笙糟来领指鳄俘,秧宝跃疙贵结淋奄累讽卖捉惑。 Latent diffusion峻季荚通猫恃答留仆穷庞蛉样谦队励延贩纸瞻傻呆公肝揣狸苹肠然屹丢躬斜辙效踢蔓背禽琅。骚谚Stable Diffusion麦喻波Latent diffusion贴假鸯抽抡值帘杈咒虐藤便处拓纤摩蚕键盔。 1、Latent diffusion蒸矢泡痒额叼帮 Latent diffusion途肴模逾富外疙暴诵: 安蔗侵裳汰(VAE) 吓段赴豹帐(VAE)漱凤卢偶施尔清豆湃:保氯司塞瞪村吱。谁要衰粥娄旬岁俏斑逆况器并属秉筹若荣磷,渔怒朗懂侨肚侄炼接穿累拉怕U_Net扑巷畜。窑隶缎学套祷腮钾滴时,姻瘫告陕馁丰世辩嚷翅缔则揩。 冈Latent diffusion搬哼怔慧柬,皱蔫滞面糕弹居隅绘络泊挖允南菜会今距刽闽妆震(latent)。灶锚教碑衩嘱否,VAE录捞构贴甚牢嫁捂斩枝关老糊。 U-Net
DALL-E 3的魔法和一点思考
Midjourney

DALL-E 3的魔法和一点思考

话不多说,先上两张图,第一张图是用DALL-E 2生成的,第二张图是用DALL-E 3 生成的,prompt是一样的:”A photo of a cat sitting on a couch.”(一只猫坐在沙发上),真所谓没有比较就没有伤害,两者的质感可以说是云泥之差吧。 当然,用不着智商140也可以想得到,3的模型肯定比2好嘛,这基本无法反驳,因为一旦涉及到大语言模型本身,世界上绝大部分人都会立即感到自身知识的贫瘠——谁能说得清楚呢。 但是,我发现一些比较有意思的东西,而且印证了我此前的一些推测和假设:如果我们无法用DALL-E 2生成好的图片,到底是因为模型的问题,还是我们提示词的问题?或者说两者问题所占的比例是多少呢?如何生成恰如其分的好的提示词? 事情是这样,我在观察DALL-E 3模型接口访问的结果时,发现它默认会带有一个 revised_prompt, 也就是说,它其实会尝试重写你的prompt,尽可能添加了一些更加有助于描述图片特征的信息。例如下面这个例子,它重写后的prompt是 A photo showcasing a short-haired domestic cat with striped fur, comfortably seated on a plush fabric couch. The living room setting is casual with soft ambient light...