#头条创作挑战赛#

写在前面

OpenAI 这两年是整活不断,GPT 系列的语言模型、DALL-E 图像生成模型和 Codex 编程辅助模型等工具的发布,都在文本生成、图像创作和代码编写等领域得到广泛应用,年初发布的 Sora ,更是实现了文本到视频直接生成,对于创作者来说简直是神器。

这段时间我折腾的比较多的则是 Stable Diffusion,毕竟这玩意开源,模型众多,绘制出的图像素质也高,创作时找不到相关图直接用它生成一张,还没有版权纠纷,多好。顺便推荐下 tensor 这个网站,支持多种模型,可以实现文字绘图,关键是这家的免费额度非常高。

1715356900007.jpg

网站支持中文显示,中文关键词还能自动转换为英文,放几张我绘制的机甲美女

1715356901202.jpg

尽管在线绘图 Midjourney(Mid)使用方便,但本地部署另有秒处,这次和大家分享利用显卡进行本地绘图的方案 Stable Diffusion

本地部署绘图工具 Stable Diffusion

以前搭建 Stable Diffusion 还需要折腾 Python 环境,自从出现整合包以后,搭建过程就相当惬意了,就连后续的更新也是自动的。

现在流行的整合包是 秋葉aaaki 和 独立研究员 星空,两者使用的内核一样,区别主要界面和集成的插件不同,这里我用 秋葉aaaki 整合包作为演示。

1715356901395.jpg

初次运行先安装依赖包

1715356901681.jpg

解压下载好的整合包,运行”A绘世启动器.exe“。

注意:解压文件不要放在中文目录。

1715356902003.jpg

启动界面如下图,点击“一键启动”。程序就会自动加载必须的启动项

1715356902501.jpg

启动成功后的界面如下图,强烈建议大家下载最新的版本,常用的插件都已经设置好了,比如汉化包、无边图像浏览等等,甚至连 CLIP 终止层数也自动显示在右上角,老版本都需要手动安装的。

1715356902948.jpg

AI 出图效果的好坏就是模型,软件内置了模型下载通道,直接点击即可安装。

点击模型类别再点击上方的按钮,还能快速定位模型保存目录,这也是很实用的地方。

1715356903340.jpg

不过更建议从专业站点下载模型,比如 civitai 和 liblibAI ,模型不仅数量多还能预览风格,点击下载按钮即可。

1715356903995.jpg

Stable Diffusion 的模型种类虽然多,但类别就那么几种,网站下载模型时能看到模型对应的类别,下载好后也要放入对应目录。

1715356904548.jpg

Stable Diffusion 使用界面如下,不同模型、不同提示词,不同设置出来的图像都各不相同,而这也是 AI 生图最好玩的地方。初次使用各项参数可以参考网上发布的成品图,然后自己微调,以此理解各项参数的作用。

下面两张图对照成品图的设置,对应功能如下

1 主模型、2 终止层数、3 正向提示词、4 反向提示词、5 采样方法、6 提示词引导系数(通常7~11)、7 迭代步数(步数越高细节越多耗时越长)、8 随机种子数(同一个种子数生成的图片类似,-1 表示随机)

1715356905033.jpg

输出的图质量不错,但脸有点崩,因为我没有使用专门的脸部模型

1715356905559.jpg

再来实战一张,下面这张图,首先观察它使用了三个模型,将其下载并复制到对应目录。

1715356906165.jpg

对照参数进行设定,数量选择一次生成 4 张

1715356906636.jpg

生成结束,下方可以看到耗时 41s,显存占用接近 12G,现在可以体会到大显存的优势了吧。可惜我这是块 4070TI,下篇打算做个不同显卡跑 SD 的对比 测试。

1715356907129.jpg

▼只要模型和种子数和原图一样,那成品可以完美复刻原图。

1715356907508.jpg

通常来讲,初次绘图都会以低分辨率作为基准,这样对显卡的符合要小点,后续再利用模型、插件进行放大和细节调整,来实战一波。

首先利用关键词一次多张生图,分辨率设为 540 * 960 实现快速产出,选出自己喜欢的一张,这个过程被戏称为“摸奖”。

1715356907722.jpg

创建的图片分辨率较小,自然需要先将其进行放大,这方面的操作手法很多,有单纯放大, 有放大加美化或者重绘细节的,介绍 2 种个人用的比较多的技巧。

选中需要放大的图片,点击下方“发送到后期处理”

1715356907947.jpg

参考下图选择算法和缩放比例,这里我只是将图片从 540*960 提升到 2144*3840,放大倍数 4 倍,耗时 4.9s,显存占用 10G 。

1715356908083.jpg

这种放大是速度最快的,而且因为没有技能扩散,所以对显卡的要求也不是很高,放大后的图片在相同尺寸下清晰度是吊打原图的。

1715356908245.jpg

再来看看 Control Net (Tile)+ Ultimate SD upscale,这是目前最流行的放大算法,放大的同时还会增加许多细节,缺点就是对显卡要求较高。

首先还是将图片发送到后期处理,启用 Control Net 和完美像素、预处理器(tile_resample)、脚本(Ultimate SD upscale)、尺寸放大(4X)、类型(Chess)

这次耗时就长多了,好在显卡给力没崩,再次体会到大显存的优势。

1715356908450.jpg

放大后的图片肤色更加自然,细节更多,额头的刘海更有光泽度。

1715356908658.jpg

局部放大更加直观,这次放大我给了一定的重绘额度,可以看到放大后的效果更加像真人,鼻子没有那么尖了,是不是有点像超杀女科洛·莫瑞兹。

1715356909024.jpg

最后

一篇简单的 Stable Diffusion 搭建教程,其实玩 SD 最重要的还是模型,下次考虑做显卡性能对比,或者专门推荐模型,感兴趣的朋友可以关注一波。

Leave a Reply

Your email address will not be published. Required fields are marked *