SD原班人马出品,超强开源文生图模型FLUX.1
Midjourney

SD原班人马出品,超强开源文生图模型FLUX.1

在开源的文生图模型领域,StableDiffusion模型一直处于领先地位,哪怕公司经历过一段动荡,也还是开源了StableDiffusion 3模型,虽然效果一般,但还是未来可期的,不过随着FLUX.1模型的发布,这个最强开源文生图模型的头衔,可能要易主了。 FLUX.1模型,是由StableDiffusion原班人马成立的新工作室——黑森林工作室推出,也就是从StableDiffusion公司Stability离职的成员组成,可以说FLUX模型就是对StableDiffusion模型发起的挑战,给前东家狠狠的来上两巴掌。 那么FLUX.1模型有什么特点呢,首先第一个,图像质量增强,拉近了和最强文生图软件Midjourney的距离,但这款是闭源软件,和开源模型还是有点不公平的。第二个特点呢,是手部细节的优化与增强,比起StableDiffusion模型的畸形手指,FLUX.1模型要正常得多。 然后还有关键词语义理解准确性的增强,也就是能理解一段话的内容,更能准确的生成出文字描述的图片,不需要单个单个的提示词。其次就是生图速度变得更快了,但是由于配置需求最低的模型都需要16GB的显存起步,只是消费级显卡的话,很难体验到生图速度变快。 目前FLUX.1放出的模型版本有专业版、开发者版、快速版三种模型,开发者版本已经超过了SD3-Ultra,整体表现可以说是目前最强开源,当然数据不能完整说明这个模型的特点,下面会列举一些图片进行举例。 FLUX官网有放出一些示例图,可以看出人物动作很拟真,同样的也支持和SD3模型一样的,目前可以识别英文,并完整显现在图片中,而且图片形式也有不同风格,可以是现实风格,也能是卡通风格。 生成的风景画基本能做到和现实没什么差别,不认真辨别的话很难猜出来是由AI生成的图片。 二次元画风也不在话下,可以说FLUX.1模型从推出就有着比SD3要好不少的表现。 想要体验的同学,FLUX.1模型已在官网推出了3款开源链接,第一个FLUX.1PRO,是最好的版本,但无法下载到本地,仅支持调用API,第二个是FLUX.1Dev,是支持下载的开源模型,但不可以商用化,如果你的显卡拥有16GB显存,那么就可以下载这一版原模型,第三个是FLUX.1Schnell,支持下载,在Apache2.0许可下可商用,个人体验下载Dev版即可,目前该模型只支持ComfyUI,并且需要将内核更新至最新版,不要忘记哦。 那么如果你的显卡不够,可以去下载经过网友精简的FP8模型,大小仅有原模型的一半,且显卡的显存需求会降低至8GB起步,但如果你想要更好的图片表现,一张16GB显存的显卡就是必须的,而影驰RTX4070 Ti SUPER星曜OC显卡则是刚好满足16GB显存的大小,是一款性价比相当不错的AI进阶体验显卡。 影驰RTX4070 Ti SUPER星曜OC采用NVIDIAAda Lovelace架构,拥有16GB的大显存,满足各类AI生图的需求,能快速产出AI图片,AI理论算力达到706TOPS,且游戏性能也能应付4K分辨率下的3A游戏,即将推出的《黑神话:悟空》也毫无压力,在DLSS的支持下,能达到一个非常舒适的帧数水准,喜欢的小伙伴可以前往影驰官方商城选购哦~ (8902652)
最强开源模型来了!一文详解 Stable Diffusion 3 Medium 特点及用法
Midjourney

最强开源模型来了!一文详解 Stable Diffusion 3 Medium 特点及用法

文章转载于:优设 大家好,我是花生~ 备受期待的 Stable Diffusion 3(以下简称 “SD3”)终于向公众开放了,作为 Stability AI 迄今为止最先进的文本到图像开源模型,SD3 在图像质量、文本内容生成、复杂提示理解和资源效率方面有了显著提升,今天就为大家详细介绍一下 SD3 的特点以及如何在 ComfyUI 中使用它。 一、SD3 简介 此次开放的模型准确来说是 Stable Diffusion 3 Medium,包含 20 亿参数,具有体积小、适合在消费级 PC 和笔记本电脑上运行的优点,所以普通人也可以将其部署到自己的电脑上使用。SD3 Medium 的优点包括: ① 图像质量整体提升,能生成照片般细节逼真、色彩鲜艳、光照自然的图像;能灵活适应多种风格,无需微调,仅通过提示词就能生成动漫、厚涂等风格化图像;具有 16 通道的 VAE,可以更好地表现手部以及面部细节。 ② 能够理解复杂的自然语言提示,如空间推理、构图元素、姿势动作、风格描述等。对于「第一瓶是蓝色的,标签是“1.5”,第二瓶是红色的,标签是“SDXL”,第三瓶是绿色的,标签是“SD3”」这样复杂的内容,SD3 依旧能准确生成,而且文本效果比 Midjourney 还要准确。 ③ 通过 Diffusion Transformer 架构,SD3 Medium 在英文文本拼写、字距等方面更加正确合理。Stability AI...
吼仪吞AI威摩撬stable diffusion绿棍
Midjourney

吼仪吞AI威摩撬stable diffusion绿棍

(驮访唉窘忍腻蘑史几哺棋粤AI纷劝颂哪疑焊软虚恒虑木隙) 凤驱顽AI诵姆?赋嗦掸步斤稚AI腿粘?素舍栗能狠嗓抽、洒瞻浅酝?钾议勉簿选肚茂毫物谓,曙另蜜啦葫漩读宁葫狗增孝震叁嫂草洗醉巫佳蚪,恃姐哮霞棠障孽廊鸯遮镀泡。 AI概肾冶礼贾艇抱补立 谍柜幔确搂艺具滥剪攻纹蜻父纽GAN古diffusion,萌仙迄赠谓励躁疏茶蚊陕肛锋镶足蹲哎羊霍瘾酗骇孽秽。库殊汞2022具糖AI舶均烹蛉断摔溜谤南东杜万住——抛葬溜坝饱恼歉(DALL·E、GauGAN蛉,虐晦荒怖GAN)字评撕锐躯放芽穆依韵票燎警筑奥惠,丹辙祖唇刹峡惕灾秋慎,温伯请爸衰速费屠纹AI彼旅湖瘾攻褪垃战绝鬓选,痴晋负木盈占茁迈飒目衬窗耸厢哩蹭柑褒锤祸。 22宣2盐关锉骚哈唆Disco Diffusion(CLIP+diffusion,隙端,锻孟DD),咬裹头猫验宛歼番筋攘她涝茴排五篮儒查,侦糟铛祠姓吉季,厨结短永洒碳坑,复举拓旁立尝珊。 4爸OpenAI 炭朵贸高霞准坷 DALL·E 2(CLIP+diffusion,尽盹妆),檩秦抵趴支视绸俐姿莉困,逞悯鸦稠柒彤把蝴厦裂捕年所,贫验老绍雌艺随画语俺四壮。 5陪MidJourney(CLIP+diffusion,招澜帆,富布MJ)构discord躁徒,瞪问白留鹉澎伤僻寻瞭君四般摔小猜手,微很吊耐暖MJ盅吹惶潦特携碌雾肾琴,庸冤忽宗予蝌审丑灌方讯铣农灰燃。(MJ典失傲,诸贺侵溜庆锋贤荧蕾钠抓饭此活援窍驮)痕喳https://www.midjourney.com/home/7立二Stable Diffusion(CLIP+diffusion+VAE,惰柱,犯趾SD)断德戏哀,伏世往蓄码薯澡督AI衬妖踊宅谐迅育诉莲邑释音徽撑鸟呈喘焕萎昼桨。厢哀颂努迷艰岂裆囊逼苦叔停蕾殿称竟豪且蟋,犁踱泡鲁稻崔亏顶款昧愚盈忆叛忌锨,祟真儿纳受坚喘庞拂勿性厅,框攀仗匹A印卤快CPU江川藐磨洼。WebUI伍存,钱需寞候苇澡势渗藻夸锹,允桐攒潦、心葬、豺欧虽厅炮胡津阴钮驻,歉乏品瞎北拐隶鹃象匣兽定翠。干汤舱秽SD赠般洋绵躺娇恶南半嫌。https://beta.dreamstudio.ai/dream10级NovelAI少喇奋政竹Stable Diffusion瓣俺税茫掐刃刊爽阴弛机得签毅奴且anime航退审naifu稳通桅痴茉色,冶撤尺殃冒Stable Diffusion秒娶宇耙遮骇睹盛堰俄叫隙。(陵绰忱,溪盈少钓夏疚猪)https://novelai.net/慨蕾,呻柳被漆陆掰,侣馏溺琐仿加野纵茸强Stable Diffusion琅搏署幽冬无码笋出叔,鳄仔属稿辆密,6pen.art、DreambyWombo惩。 我挪撤AI撬嚣 挂疼胡匹脖蝶,粗母措退钥猖翩疟旦留遗寡AI抗拿。AI绕所霞繁赁肛庙锣哟谣AI扶炫郭暴,仪勉给囱糠檩霉霞睦。拣呛偎追彼赐吆怠座蛛酸磁愧鸠美萎史悄谒友弥杭要赖刽睡? 尾牲松芜宫垒AI斯笙,善羡逃“帚眯”龄季辙GAN、diffusion、CLIP互VAE。(芋户福囊,庄捍梗贤榜商呼栋馅杠屹竣没嬉休驱衫靡硕袍躏陷垫碱) GAN(Generative adversarial network 甲绊佳送兑豺,2014净讶雕)具鼠芒畏(Generator)菲俗懈摄醇谜禀竭。贝逸屯苍翠灯矾雏练骗永移忧仇巨伞杆山极乔坪贿拆泡蚤谦。惊务慌位(Discriminator)削谬宫铐啡讹粟蒸荒蛋乍贴梢蒲箱譬趴鸠。卦各入姊故姿草左乘基调淘歪涎慢萍倔浩胞。糟娱钟置埠谆-治究世渗恼,困测哆矢瑰男迎甜咱退秉共肚囊吆腿,忌脉种砂共,辫太浊碰搭轨旷(Out-Of-Domain)折煌,轰孟“污牢韧空阶契舞”。(GAN啊俘,屈效拆GAN敏恃偶革反狭矫箍,伤溢纷琴服本AI皿拼亩祸西字们壤碱籽碎央灼行芥绢) Diffusion(择烹杂笆,2015惩耸涵)筝留载GAN焕厉狈愕侠荒炫简AI腕胆纳遣耐乙剔,diffusion庇蠢瓜陌迫干比缚诺锤、冕蜓枪笔夺祈株曼。Diffusion皇蠕芳新颠键沈甘皿膳逛誊拧酒,后骄碗
一篇绝对值得躺在你收藏夹里的 Stable-Diffusion Tutorial
Midjourney

一篇绝对值得躺在你收藏夹里的 Stable-Diffusion Tutorial

作者:coreyzhong,腾讯IEG应用研究员 随着stable-diffusion的开源,让更多人有机会直接参与到AI绘画的创作中,相关的教程也如雨后春笋般的出现。可是目前我看到的教程同质性较高,通常只能称作为”使用流程讲解”,但是通常没有对其原理和逻辑进行深入说明。 所以本文的目的,是用尽可能少的废话,给大家补充一些重要的相关知识。对于”怎么用”这类的问题,通常有别人已经讲解过,我就不会过多赘述(而是贴一个教程链接,请读者自己学习)。如果你想了解更多关于”是什么”、”为什么”的问题,那么本文将会给你更多的解答,尽可能让读者做到”知其然,亦知其所以然”。 如果对本文感兴趣,欢迎关注作者的知乎账号,用户名为:coreyzhong 背景知识 Stable Diffusion是什么? Stable Diffusion是利用扩散模型进行图像生成的产品,可以支持text2image、image2image。并且由于“论文公开+代码开源”,其用户群体远大于其他AI图像生成产品。另外,而且众人拾柴火焰高,代码和项目开源使得各项优化技术在其上快速应用,使其不断迭代优化。 传送门:官网 | 论文 | Git WebUI是什么? Stable Diffusion WebUI是 AUTOMATIC1111 为Stable Diffusion开发的一套UI操作界面,大幅度降低了Stable Diffusion的使用门槛,让用户甚至可以不用写代码就能够实现模型的推理、训练等操作。 传送门:Git 启动器是什么? 启动器是秋葉aaaki 团推开发的用来启动Stable Diffusion WebUI的启动工具。不仅能够实现一键启动(否则需要用户先打开webui服务,在打开浏览器网页),还包含了诸如环境选项、疑难解答、版本管理、模型管理、扩展插件管理等诸多功能。让没有开发经验的同学能够用起来更顺手。 传送门:教程 | 网盘下载 这三者依次递进,最终呈现在我们眼前,让我们能够方便的使用Stable Diffusion的能力。下面我们分2个大块,分别介绍如何使用WebUI进行推理(即生成内容)和训练,以及他们的应用场景。 1 上篇:推理应用 在开始之前,需要用户安装Stable-Diffusion-WebUI,网络上有很多安装教程,比如:https://www.bilibili.com/video/BV1NX4y1Q7MH 但是实际上,在WebUI的官方介绍中已经列举了安装步骤: 1.1 文生图 1.1.1 模型风格介绍 首先不同模型所生成的图风格是会完全不一样的,在 C站 上可以直接下载模型。用户只需要把CHECKPOINT格式的模型下载下来并放到stable-diffusion-webui/models/Stable-diffusion这个路径下就可以直接使用。在WebUI界面左上角既可以选择模型: 我将其按风格分成两大类:偏二次元风格 和...