扩散模型的图像生成主导权终于要被GAN夺回来了。
就在所有人都在庆祝新年的时候,英伟达的一群科学家悄悄升级了StyleGAN系列,生产出了StyleGAN—T的PLUS版本,顿时在网上走红。
无论是在星云爆炸中制造软木塞:
或者基于虚幻引擎风格渲染的森林:
生成只需要将近0.1秒!
很多网友的第一反应是:
甘,一个久违的名字。
在低质量图像生成方面,StyleGAN—T优于扩散模型。
但他也表示,在256×256图像的生成中,仍然是扩散模型的天下。
那么,新的StyleGAN质量如何,它在哪些领域重新具有竞争力。
StyleGAN—T长什么样。
与扩散模型和自回归模型相比,GAN最大的优势是速度。
因此,StyleGAN—T这次也重点研究了大规模文本图像合成,即如何在短时间内由文本生成大量图像。
StyleGAN—T是在StyleGAN—XL的基础上改进而来的。
StyleGAN—XL的参数是StyleGAN3的三倍基于ImageNet训练,可以生成1024×1024的高分辨率图像,并借鉴了StyleGAN2和StyleGAN3的一些架构设计
其总体结构如下:
只有控制参数ψ,才能在剪辑分数变化不大的情况下,提高生成图像的风格多样性。
那么它的产生效果如何呢。
低分辨率图像的超快速生成
在微软的MS COCO数据集上,StyleGAN—T在64×64分辨率下实现了最高的FID。
但是在256×256的更高分辨率的一代中,StyleGAN—T仍然比不过过扩散模型,但是比同样使用GAN的拉菲好很多:
如果进一步将生成时间和FID分别作为纵轴和横轴,在同一个图上进行比较,可以更直观地比较生成质量和速度。
可以看出,StyleGAN—T可以以10FPS的速度生成256×256分辨率的图像,FID值接近LDM,GLIDE等扩散模型。
添加或更改特定形容词后,生成的图像确实符合描述:
即使是快速生成的图像,也能快速控制风格,如梵高风格绘画或动画,
当然也有偶尔失败的情况,最典型的就是生成有文字要求的图像时,无法显示正常的文字:
阿克塞尔·绍尔,图宾根大学博士生,卡尔斯鲁厄理工学院硕士目前感兴趣的研究方向有深度生成模型,神经网络架构和实证研究
但在这波GAN掀起的复兴浪潮下,也出现了StyleGAN时代即将结束的声音。
有网友感慨:
在此之前,最新的StyleGAN生成的图像总是让我们感到惊讶,而现在它只给我们快的印象。
你觉得甘还能撼动扩散模型的霸主地位吗。
纸张地址:
项目地址:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
-
盘扣式脚手架有哪些优点?四川远方模架告诉你答案!新浪网消息:四川远方模架科技有限公司位于四川省成都市,创建于2017年。公司拥有M60型盘扣脚手架总量达30000余吨,具有...
-
区块链如何跨越未来10年“十四五”时期,随着全球数字化进程的深入推进,区块链产业竞争将更加激烈。作为新兴数字产业之一,区块链在产业变革中发挥着重要作...
-
三人篮球将首登奥运舞台 国家三人男女篮签署反兴奋剂为实现东京奥运会兴奋剂问题“零出现”的目标,近日,中国篮协反兴奋剂委员会分别前往山东济南和上海崇明训练基地,为国家三人男、女...
-
新增5G基站1万个数字化车间83个
2023-02-02 10:25
-
打新必读:北交所驰诚股份申购
2023-02-02 10:09
-
预计将带来2023款笔记本电脑新品
2023-02-02 10:04
-
一加官方宣布一加Ace2将全球首发触控并称其可能是业
2023-02-02 09:24
-
Meta为高端虚拟现实头显推出了一个大促销活动在特定
2023-02-02 08:33
-
央视农业发布视频《中科院合成淀粉蛋白新突破!流浪地球
2023-02-02 08:23
-
Meta持有的现金现金等价物和有价证券总额为407.
2023-02-02 08:17
-
a股定增行情上涨上市公司参与热情高涨
2023-02-02 08:09
-
Meta还将寻求削减没有业绩或不重要的项目并改善优先
2023-02-02 08:07
-
宝妈副业平台推荐,轻松搞定高意向客户
2023-02-01 19:44