免费开源稳定扩散玩出了新花样:
稳定扩散不仅可以将同一幅原始图像缩小到更小的尺寸,而且性能优于JPEG和WebP。
对于同一幅原始图像,稳定扩散压缩后的图像不仅细节更多,而且压缩伪影更少。
但使用稳定扩散压缩图形的软件工程师马蒂亚斯·布尔曼也指出,这种方法有明显的局限性。
因为它不太擅长处理人脸和文字,有时甚至会在解码和扩展回来后,幻化出原图中不存在的特征。
像这样:
左边是原始图像,右边是稳定扩散压缩和扩展的生成图像。
但是话说回来—
稳定扩散是一种特殊的扩散模型,称为势扩散。
与标准扩散不同,潜在扩散在低维的潜在空间中进行,而不使用实际的像素空间。
也就是说,隐藏空间的表现结果是一些低分辨率的压缩图像,但这些图像具有很高的准确性。
在这里,图像的分辨率和精度是两回事
以这只骆驼的头像为例:原图大小为768KB,分辨率为512×512,精度为3×8位。
经过稳定扩散压缩到4.98KB后,分辨率降低到64×64,但精度提高到4×32位。
所以看起来稳定扩散的压缩图像和原图差别不大。
更具体地说,稳定扩散的势扩散模型有三个主要部分:
VAE,优信网和文本编码器。
可是,在这个压缩图像的测试中,文本编码器是没有用的。
VAE起主要作用,它由两部分组成:编码器和解码器。
MB发现,VAE的解码函数对于量化潜在表征是非常稳定的。
通过缩放,拖动和重新映射,将潜在表示从浮点量化为8位无符号整数,可以得到失真很小的压缩图像:
首先将latents量化为8位无符号整数,图像大小为64×64×4×8Bit=16 kB。
然后利用调色板和抖动进一步将数据压缩到5kB,同时提高图像还原度。
作为一个严谨的程序员,MB哥不仅用肉眼观察,还分析了画质的数据。
但从PSNR和SSIM这两个重要的图像质量评价指标来看,稳定扩散的压缩结果并不比JPG和WebP好。
此外,当潜在表示被重新解码并扩展到原始图像分辨率时,尽管图像的主要特征仍然可见,但VAE也会将高分辨率特征分配给这些像素值。
用白话文来说,重建的图像往往与原始图像不同,其中包含了许多新生成的鬼畜特征。
我们再来回顾一下这张图:
虽然用稳定扩散来压缩图还有很多问题,但是用MB的话来说,它的效果还是很惊人的,前景很光明。
现在MB哥已经把相关代码放在Google Colab上了,感兴趣的朋友可以仔细看看~
入口
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

-
盘扣式脚手架有哪些优点?四川远方模架告诉你答案!新浪网消息:四川远方模架科技有限公司位于四川省成都市,创建于2017年。公司拥有M60型盘扣脚手架总量达30000余吨,具有...
-
区块链如何跨越未来10年“十四五”时期,随着全球数字化进程的深入推进,区块链产业竞争将更加激烈。作为新兴数字产业之一,区块链在产业变革中发挥着重要作...
-
三人篮球将首登奥运舞台 国家三人男女篮签署反兴奋剂为实现东京奥运会兴奋剂问题“零出现”的目标,近日,中国篮协反兴奋剂委员会分别前往山东济南和上海崇明训练基地,为国家三人男、女...
-
总额接近4000亿元纷纷抢购多晶硅长单
2022-09-30 22:11
-
联想尚未宣布何时在中国推出30周年ThinkPadX
2022-09-30 21:17
-
扣除发行费用后用于年产95万台系列逆变器分布式光伏电
2022-09-30 21:14
-
北京三批次供地海开53.18亿竞得海淀西北旺0019
2022-09-30 20:56
-
广西北海:群众非必要不出市采取积极措施防止疫情外溢蔓
2022-09-30 20:35
-
它在乡村振兴方面投入了近5000亿元贷款
2022-09-30 20:30
-
唐山市人力资源服务产业园高新区分园正式开园成果展示为
2022-09-30 20:26
-
HM第三财季利润暴跌88%,产品质量屡遭诉,入华15
2022-09-30 20:14
-
光伏、锂电概念走势疲弱,5连板公元股份跌停,锂电能新
2022-09-30 19:21
-
根据汤姆的硬件ThreadripperPRO7000
2022-09-30 18:45