Stable Diffusion压缩图像技术探析,效果惊人还未达极致

发布时间:2024-08-16 09:22:05 浏览量:218次

近期有一项名为Stable Diffusion的图像压缩技术备受瞩目,可能还有更多潜力等待挖掘。一位名叫Matthias Bühlmann的博主对这一技术进行了深入实验研究,发现Stable Diffusion作为一种图像压缩编解码器表现出色。在实验过程中,与JPG和WebP相比,Stable Diffusion在小文件大小下保留了更出色的图像质量。

实验分析结果

根据Matthias Bühlmann的分析,Stable Diffusion使用三个串联的训练好的人工神经网络,分别是变分自编码器(VAE)、U-Net和文本编码器。其中,VAE对图像进行编码和解码,并将潜在表征转换为更低分辨率、更高精度的形式。

VAE的潜在表征经过压缩后发现重构图像质量并不会明显下降,而对潜在表征进行采样或应用其他有损压缩方法则会影响重构质量。Matthias Bühlmann的实验还发现了一些意外之处,通过特定算法的进一步量化结果十分出色。

动物照片压缩效果

动物照片,从左至右:JPG (5.66kB), WebP (6.74kB), Stable Diffusion (4.97kB)。

实验讨论

尽管Stable Diffusion在压缩图像方面效果明显好于JPG和WebP,但在某些指标上并没有明显优势。特别是在保留细节方面,Stable Diffusion表现更佳,但受到压缩伪影的影响,一些特征可能会发生变化。

对于小字体文本和人脸特征的保留方面,Stable Diffusion v1.4不够理想,但在人脸生成方面,v1.5模型拥有更好表现。

潜在特征解码结果

左:Ground Truth;中:经过VAE roundtrip (32-bit潜在特征);右:从palettized去噪8-bit潜在特征解码的结果。

结论

实验结果表明Stable Diffusion在图像压缩方面展现出令人惊艳的效果,但仍有改进空间。Stable Diffusion的未来版本可能会进一步优化图像压缩特性。

想了解更多数字艺术教育课程?赶紧点击咨询,了解火星时代教育的专业培训课程!

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定