Stable Diffusion 3开源秒翻车,画人好掉san
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 没想到……Stable Diffusion 3开源即出现翻车案例。 生成一个躺在草地上的女孩,结果长这样? 而且不是个例,只要是和人(整体)相关的内容,生成结果都有点掉san。 ( 前方高能 ) 但如果是局部,比如只生成人脸,确实很nice。 清晰度、写字、写实性等方面都有明显提升。 对于复杂长提示词的理解也很到位,有网友发现提示越长它画的越好。 那么问题来了,为啥偏偏画不好人类? 问题可能在于数据集 先来看看SD3开源的具体情况。 本次开源的版本是Stable Diffusion 3 Medium(中杯)。 它的规模为20亿参数,在笔记本上就能跑了。 官方强调的属性有5方面,逐一来看: 整体质量和写实性 可生成出色的细节,包括色彩、光线、强写实等,带来灵活风格的高质量输出。 通过16通道VAE,成功解决了其他模型的常见缺陷,比如手部和面部的写实问题。 提示词理解 可以理解复杂长提示,包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用,方便用户平衡性能和显存。 有效利用资源 对VRAM占用很低,非常适合在消费级GPU上运行,且性能不降低。 微调 能够利用小数据集微调,方便定制化。 目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用,商业用途需要先拿授权。 那么为啥升级后还是会翻车? 有人发现,如果细看“躺在草坪上的女孩”这张图像,会发现它在局部细节上确实还可以,甚至很棒。 草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。 但人物整体就不敢恭维了。 不少网友都认为,这就是问题的关键。 我认为他们的NSFW过滤器,把所有人类图像都判定为了NSFW。 这个过滤器全称是filtering out...