StableDiffusionReimagine:单张图像生成多个变体的创新工具

文章主题：稳定性, AI, Clipdrop工具, 图像生成

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

我们很高兴地宣布推出 Stable Diffusion Reimagine，这是我们对稳定扩散技术的再次创新！我们诚挚地邀请广大用户通过 Stable Diffusion 工具，尝试图像处理并“重新构想”他们的设计理念。

Stable Diffusion Reimagine是一款创新型的Clipdrop工具，为用户提供了一个全新的图像生成体验。这款工具的特点在于其 simplicity and versatility，用户只需轻松地将图像上传至算法之中，便可生成无数个独特的图像变体。无需繁琐的提示设置，用户可尽情发挥创意，轻松实现自己的设计需求。

在以下的示例里，左上方的图像展示的是输入原始工具的界面，其余的图片则是受到原始工具激发，进而产生的“重新构想”的作品。

您的卧室可以通过点击一个按钮来改变：

你也可以玩转时尚造型：

Clipdrop 还具有升级器功能，允许用户上传小图像并生成至少两倍细节级别的图像：

用法和限制

Stable Diffusion Reimagine并非一款会从头开始创建图像的工具，而是以稳定扩散的方式对原有图像进行重新创作。这种方法并不是简单地复制或模仿原作，而是通过稳定扩散的过程，受到原作启发，生成全新的图像。

这项技术有已知的局限性：它可以根据某些图像激发惊人的结果，而对其他图像产生不太令人印象深刻的结果。

我们在模型中安装了一个过滤器来阻止不适当的请求，但过滤器有时会屈服于误报或误报。

该模型有时也可能产生异常结果或表现出有偏见的行为。我们渴望收集用户反馈，以帮助我们正在进行的改进该系统和减轻这些偏见的工作。

技术

Stable Diffusion Reimagine: A New Algorithm for Image Generation Based on the stability.ai PlatformThe Stable Diffusion Reimagine algorithm is a cutting-edge approach to image generation that leverages the power of stability.ai, a cutting-edge technology in its own right. This new algorithm takes the classic text-to-image stable diffusion model and trains it to operate under the condition of receiving text input as a parameter. By doing so, Stable Diffusion Reimagine significantly enhances the capabilities of this established model, allowing for even more sophisticated and realistic image generation.

在本版本的更新中，我们采用了图像编码器来替代原有的文本编码器。这种方法的特点在于，它并非基于文本信息直接生成图像，而是从图像出发，通过对图像进行编码，从而生成新的图像。在编码过程中，我们会通过特定的算法，加入一定量的噪声，以此来实现图像的变化和多样性。

这种技术能够创造出外观上具有细致差异和构成比的图像。与传统的图像到图像算法有所不同，该算法首先将源图像进行全面的编码，而非直接使用原始图像中的单一像素。

Stable Diffusion Reimagine 的模型即将开源在：

https://github.com/Stability-AI/stablediffusion/

不难看出，Stable Diffusion Reimagine大概率是将CLIP text encoder换成了CLIP image encoder，类似DALLE2那样。

参考资料：https://stability.ai/blog/stable-diffusion-reimagine

推荐阅读

深入理解生成模型VAE

DropBlock的原理和实现

SOTA模型Swin Transformer是如何炼成的!

有码有颜！你要的生成模型VQ-VAE来了！

集成YYDS！让你的模型更快更准！