Stable Diffusion 3开源秒翻车,画人好掉san
Midjourney

Stable Diffusion 3开源秒翻车,画人好掉san

明敏 发自 凹非寺 量子位 | 公众号 QbitAI 没想到……Stable Diffusion 3开源即出现翻车案例。 生成一个躺在草地上的女孩,结果长这样? 而且不是个例,只要是和人(整体)相关的内容,生成结果都有点掉san。 ( 前方高能 ) 但如果是局部,比如只生成人脸,确实很nice。 清晰度、写字、写实性等方面都有明显提升。 对于复杂长提示词的理解也很到位,有网友发现提示越长它画的越好。 那么问题来了,为啥偏偏画不好人类? 问题可能在于数据集 先来看看SD3开源的具体情况。 本次开源的版本是Stable Diffusion 3 Medium(中杯)。 它的规模为20亿参数,在笔记本上就能跑了。 官方强调的属性有5方面,逐一来看: 整体质量和写实性 可生成出色的细节,包括色彩、光线、强写实等,带来灵活风格的高质量输出。 通过16通道VAE,成功解决了其他模型的常见缺陷,比如手部和面部的写实问题。 提示词理解 可以理解复杂长提示,包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用,方便用户平衡性能和显存。 有效利用资源 对VRAM占用很低,非常适合在消费级GPU上运行,且性能不降低。 微调 能够利用小数据集微调,方便定制化。 目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用,商业用途需要先拿授权。 那么为啥升级后还是会翻车? 有人发现,如果细看“躺在草坪上的女孩”这张图像,会发现它在局部细节上确实还可以,甚至很棒。 草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。 但人物整体就不敢恭维了。 不少网友都认为,这就是问题的关键。 我认为他们的NSFW过滤器,把所有人类图像都判定为了NSFW。 这个过滤器全称是filtering out...
Stable Diffusion 3 Medium 开源,AI 生图格局迎来巨变
Midjourney

Stable Diffusion 3 Medium 开源,AI 生图格局迎来巨变

就在刚刚,Stable Diffusion 3 Medium 如约而至。 几天前,Stability AI 在社交平台 X 上官宣,SD3 Medium 将在 6 月 12 日正式开源。 这一次,没有跳票,它是真的来了。 20 亿参数大小,笔记本也能玩转 SD3 Medium 据 Stability AI 官方博客介绍,SD3 Medium 模型包含 20 亿个参数,能够生成更高质量、更细腻的图像。 得益于模型较小的尺寸,SD3 Medium 尤其适合在消费类 PC 和笔记本电脑以及企业级 GPU 上运行。 SD3 Medium 特点如下: 克服常见的手部和面部瑕疵,无需复杂工作流程即可提供高质量图像。 理解涉及空间关系、构图元素、动作和风格的复杂提示。 在生成文本方面取得前所未有的成果,无人工痕迹和拼写错误。 低 VRAM 占用,适用于标准消费级 GPU,也不会降低性能。...
Stable diffusion 3 正式开源
Midjourney

Stable diffusion 3 正式开源

6月12日晚,著名开源大模型平台Stability AI正式开源了,文生图片模型Stable Diffusion 3 Medium(以下简称“SD3-M”)权重。 SD3-M有20亿参数,平均生成图片时间在2—10秒左右推理效率非常高,同时对硬件的需求比同类型也低,这是一款适合PC、手机、平板的大模型。 此外,SD3-M还与英伟达、AMD合作,特地针对RTX GPU 、TensorRT和最新CPU、MI-300X进行了优化,性能最高可提升50%。 开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium 免费在线试用:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium 根据Stability AI的介绍,SD3-M使用的是多模态扩散变换器 (MMDiT)架构,生成的图片质量、排版、复杂文本提示/语义理解和资源效率方面的性能得到了极大提高。 训练数据集方面,SD3-M使用了包含10亿张图片的公开和合成数据进行了预训练,同时针对特定艺术风格和领域,使用了3000万张图片进行了微调以及300万张偏好图片。 所以,SD3-M对用户的文本提示理解和嵌入图片文字的效果将比前两代更好。根据在线demo,为大家展示一下SD3-M的生成效果。 高耸的摩天大楼、飞驰的汽车和充满活力的全息广告构成的未来主义城市景观 日落时宁静的海滩景色,金色的沙滩,温柔的海浪,一对夫妇手牵手散步 郁郁葱葱的热带雨林,茂密的树叶,五颜六色的鸟类,背景是瀑布。 一家20世纪50年代的老式餐厅,配有棋盘地板、红色乙烯基展位和播放经典摇滚乐的自动点唱机。 一个异想天开的幻想世界,漂浮的岛屿,雄伟的龙在天空中飞翔,下面是迷人的森林。 一个时尚现代的厨房,配有不锈钢器具、大理石台面和一扇俯瞰花园的大窗户。 以上只是部分案例,有兴趣的小伙伴可以通过在线demo免费无限生成。目前SD3-M只能用于学术研究无法商业化。如果想商用需要联系Stability AI进行商业授权。 本文素材来源SD3-M官网,如有侵权请联系删除 END 返回搜狐,查看更多 责任编辑:
Stable Diffusion 3 搭建教程及官方实例演示
Midjourney

Stable Diffusion 3 搭建教程及官方实例演示

作为最新版本的 AI 图像生成模型,Stable Diffusion 3 带着万众期待来了,相信一定有许多小伙伴在工作和生活中已经开始或多或少地使用过了图像生成模型,那么我们下面就来分享一下 Stable diffusion 3 的本地搭建过程吧,废话不多说,上干货。 本次搭建使用的平台配置如下: 考虑到本地运行 Stable diffusion 3 对算力的强大需求,我们本次选用了影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡。GEFORCE RTX 4070 Ti SUPER 基于 AD103 核心所打造,也是这款显卡最大的改变。内部包含 8448 个 CUDA 核心,相比 RTX 4070 Ti 的 7680 个核心数提升了 10% 以上,显存位宽相比 RTX 4070 Ti...