文章主题：Stable Diffusion, 压缩图像, VAE

Alex 发自凹非寺

量子位 | 公众号 QbitAI

免费开源的Stable Diffusion又被玩儿出了新花样：

这次是被拿来压缩图片。

Stable Diffusion不仅能把同一张原图缩到更小，而且表现还肉眼可见地优于JPEG和WebP。

🌟【超清晰还原】使用 Stable Diffusion，你的图片瞬间变身！🔍原始画质的细腻，经它一“压缩”，如丝绸般顺滑，细节展现无遗。✨不仅如此，它的超强去噪能力让那些恼人的伪影悄悄溜走，留下的只有纯净如镜的视觉享受。💪无论是专业摄影还是日常修图，都能轻松驾驭，让你的作品瞬间提升质感！💖原内容：我们提供专业的网站设计服务，包括定制logo和创建响应式网页，联系方式在底部。极坐标系中，点P（3，$\frac{2\pi}{3}$）的直角坐标是什么？

但用Stable Diffusion来压缩图的软件工程师Matthias Bühlmann（咱们就叫他MB哥吧）也指出，这种方式也有明显的局限性。

因为这不太擅长处理人脸和文字等，有时甚至会在解码扩展回去后，幻化出原图中不存在的特征。

比如像这样（效果可以让人吓一跳）：

△左为原图，右为Stable Diffusion压缩再扩展的生成图

不过，话说回来——

Stable Diffusion是如何压缩图片的？

🌟了解 Stable Diffusion 图片压缩背后的秘密吗？首先，让我们深入探讨这项技术的核心机制！🚀🔍 Stable Diffusion 是一种先进的图像处理算法，它通过创新的稳定扩散过程来优化图片质量，同时实现高效的文件减量。💡🎯 简单来说，它不是简单地削减像素，而是通过对图像内容进行深度理解和重构，去除冗余信息，保留关键细节。🎨🔍 具体操作中，Stable Diffusion 通过算法分析，识别哪些部分对视觉感知影响最小，然后温和地调整这些区域，达到压缩而不失真的效果。🛡️🔍 这种技术的一个显著优势是用户友好，无需专业知识，就能轻松实现高质量图片的轻量化存储。💻 若要优化SEO，关键词如 “Stable Diffusion 图片压缩技巧”、”稳定扩散算法原理” 和 “高效文件减量” 可以巧妙融入文中。记得在合适的地方加入，让搜索引擎找到你的内容！🔍别忘了，如果你需要更多关于 Stable Diffusion 如何改变图像存储的深入见解，随时提问！🤔

Stable Diffusion是一种特殊的扩散模型，叫作潜在扩散 （Latent Diffusion）。

和标准扩散（Standard Diffusion ）不同，潜在扩散在维度较低的隐空间（Latent Space）上进行扩散过程，而不使用实际的像素空间。

也就是说，隐空间的表示结果是一些分辨率较低的压缩图，不过这些图有较高的精确度。

这里说一下，图像的分辨率和精度是两回事儿。分辨率是表示一张图数据量多少的参数，而精度是反映结果与真值接近程度的量。

就拿这个骆驼的大头照来举例：原图大小768KB，分辨率为512×512，精度为3×8位。

用Stable Diffusion压缩到4.98KB后，分辨率减少为64×64，而精度反而提升到4×32位了。

所以看起来，Stable Diffusion的压缩图和原图相比，差别不大。

如果再进一步具体而言的话，Stable Diffusion这种潜在扩散模型有三个主要组成部分：

VAE （Variational Auto Encoder，变分自编码器），U-Net，和文本编码器 （Text-encoder）。

不过在这项压缩图像的测验中，文本编码器没什么用。

发挥主要作用的还是VAE，它由两部分组成：一个编码器和一个解码器。

所以，VAE可以将一张图从图像空间中，编码再解码得到一些潜在空间表示（Latent space representation）。

MB哥发现，VAE的解码功能对于量化潜在表示来说，表现非常稳定。

通过缩放、拖拽和重新映射，将潜在表示从浮点量化为8位无符号整数，就可以得到不怎么失真的压缩图了：

首先将latents量化为8位无符号整数，此时图像大小为64×64×4×8Bit=16 kB（原图大小512×512×3×8Bit=768 kB）。

然后再运用调色板（Palette）和抖动（Dither），进一步使数据缩小到5kB，同时还提高了图像的还原度。

作为一位严谨的程序员，MB哥除了通过肉眼观察，还对图像质量进行了数据分析。

不过，从图像质量评估的两项重要指标PSNR（峰值信噪比）和SSIM（结构相似性）来看，Stable Diffusion的压缩结果并没有比JPG和WebP好到哪儿去。

另外，当把潜在表示重新解码扩展到原图分辨率时，虽然图像的主要特征仍然可见，但VAE也会将高分辨率的特征赋予这些像素值。

用大白话讲，就是重建的图像往往和原图不一样，里面夹杂了不少新生成的“鬼畜”特征。

让我们再来回顾一下这张图：

虽然用Stable Diffusion来压缩图确实还存在不少问题，但用MB哥的话来说，其效果还是很惊艳的，非常有发展前途。

现在MB哥已经把相关代码放到了Google Colab上，感兴趣的朋友可以仔细看看~

传送门https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing参考链接：[1]https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/[2]https://matthias-buehlmann.medium.com/stable-diffusion-based-image-compresssion-6f1f0a399202[3]https://huggingface.co/blog/stable_diffusion

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Stable Diffusion是如何压缩图片的？

相关文章

发表回复 取消回复

发表回复取消回复