Stable Diffusion 3 搭建教程及官方实例演示

作为最新版本的 AI 图像生成模型，Stable Diffusion 3 带着万众期待来了，相信一定有许多小伙伴在工作和生活中已经开始或多或少地使用过了图像生成模型，那么我们下面就来分享一下 Stable diffusion 3 的本地搭建过程吧，废话不多说，上干货。

本次搭建使用的平台配置如下：

考虑到本地运行 Stable diffusion 3 对算力的强大需求，我们本次选用了影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡。GEFORCE RTX 4070 Ti SUPER 基于 AD103 核心所打造，也是这款显卡最大的改变。内部包含 8448 个 CUDA 核心，相比 RTX 4070 Ti 的 7680 个核心数提升了 10% 以上，显存位宽相比 RTX 4070 Ti 提升到了 256bit，而且显存规格也增加到 16GB GDDR6X，无论是对游戏还是 AI 创作都有帮助。

选择这块显卡，算是在价格和性能上取了个平衡，这块显卡搭载了 16GB GDDR6x 显存，显存位宽 192bit，长 35.4cm。

为了确保这块显卡可以胜任本次 Stable diffusion 3 的搭建，IT之家也提前对这块显卡的计算性能进行了一些测试，GeForce RTX 4070 Ti SUPER 的 8448 个 CUDA 核心可以提供硬件加速，使得工作效率得以提高。几乎所有的建模软件都会对 NVIDIA 的 GPU 进行优化，因此在效率、稳定性和兼容性方面都能够兼顾。我们测试了 V-Ray Benchmark 的性能表现。其中 GPU CUDA 测试项目得分为 2746 分。

而在 Stable Diffusion 1.7 的测试中，通过选择模型 v2-1_768-ema-pruned.ckpt，以文生图的方式绘制 21 张小木屋的图像，图像分辨率为 768*768，最终花费 54 秒完成。而在开启 TensorRT Engines 功能后，速度再次缩减一半，27 秒即可完成。

那么经过一系列的测试，我们已经确定了这块显卡完全可以胜任此次的 Stable Diffusion 3 搭建，下面我们就撸起袖子，开干！

一、资源准备

硬件平台搭建完，接下来就是 UI 界面的选择和模型的下载了，这里要补充一句，整个搭建过程包括模型文件的下载，对网络环境的要求比较高，不过IT之家会把搭建所需的文件都放到文末供大家学习交流。

由于 Stable Diffusion 3 刚刚发布不久，Web UI 目前还没有适配，所以本次使用的是 ComfyUI。Github 网址如下：

https://github.com/comfyanonymous/ComfyUI

下滑找到下载链接，单击下载。

UI 先下载着，我们这边去下载重磅的 Stable Diffusion 3 模型文件。网址如下：

https//huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main

（这个网址是官方链接跳转过来的，无需质疑权威性。）

下载模型文件需要先登录网站，没有账号的小伙伴可以注册一下，注册过程比较常规。注册后可以看到如下的模型文件。先下载图中标注的三个模型文件即可。

此外，还需要下载这两个文件夹中的部分文件。

text_encoders 文件夹中需要下载这三个文件。

comfy_example_workflows 文件夹中的三个文件体积比较小，为官方提供的示例工作流，这里下载以便后续演示使用，如果不需要也可以不下载。

如果顺利的话，如下这些文件下载好后，我们的搭建工作就可以正式开始啦。

二、平台搭建

首先解压 new_ComfyUI_windows_portable_nvidia_cu121_or_cpu.7z，得到如下文件。

接下来定位到…ComfyUI_windows_portable / ComfyUI / models / checkpoints 文件夹，将我们前面下载的文件中，三个“sd3”开头的文件移动到这里。

再定位到…ComfyUI_windows_portable / ComfyUI / models / clip 文件夹，将“clip”和“t5xxl”开头的三个文件移动到这里。

回到…/ComfyUI_windows_portable/ 文件夹，由于我们是主要依靠影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡的算力，因此我们这里双击运行 run_nvidia_gpu.bat。

如果没有意外的话，打开后你会看到如下的界面，那么恭喜你，基于 ComlfyUI 的 Stable Diffusion 3 搭建过程就初步完成了。

三、官方工作流示例

那么接下来，怎么使用呢，还记得我们前边下载的三个官方工作流吗，这三个官方提供的工作流示例中，第一个为基本的单提示词生成图片，第二个为多提示词生成图片，第三个则是在第一个基础上，增加了一步图片分辨率提升，这里我们就依次演示一下如何跑通三个官方工作流。

将下载的第一个.json 文件直接拖入到 ComfyUI 界面中，可以看到工作流发生了变化。

这时候如果直接运行，是会报错的，需要重新指定一下模型的文件位置。在模型这里，按照原有的模型名称，对应的选择我们之前放入的模型文件即可。

全部选定之后，就可以开始运行了，官方的提示词为

a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The characters face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres.

翻译过来就是

一个留着飘逸长发的女性角色，头发看起来像是用类似于北极光或北极光的旋涡图案制成的。背景以深蓝色和紫色为主，营造出神秘而戏剧性的氛围。角色的脸很平静，皮肤苍白，五官精致。她穿着深色衣服，上面有微妙的图案。这幅画的总体风格让人想起奇幻或超自然体裁。

上图工作流中绿色文本框中就是正向提示词的输入区域，红色文本框为反向提示词的输入区域，运行后生成的图片如下，我们使用影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 生成这张 1024*1024 像素的图片，仅用了 21.23 秒，体验非常丝滑。可以看到，运行模型的时候，GPU 负载瞬间拉满，可见模型对 GPU 算力的需求还是相当恐怖的。