来公众号 机器之心授权
本文介绍了中国科学院计算所、上海交通大学等机构 AAAI 2022 关于可解释生成对抗网络的可解释(GAN)的工作。这项工作提出了一种传统 GAN 修改为可解释 GAN 一般的方法,使 GAN 生成器中间层的卷积核可以学习解耦的局部视觉概念(如人脸的眼睛、鼻子和嘴巴)。在生成不同的图像时,每个卷积核可以稳定地生成相同视觉概念的图像区域。可解释 GAN 人们可以通过操作层中相应的卷积核特征图来修改图像上的特定视觉概念 GAN 生成图像的可控编辑方法提供了一个新的角度。
论文地址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
作者:中国科学院计算技术研究所、上海交通大学、智江实验室
产生对抗网络(GAN)在生成高分辨率图像方面取得了巨大成功,近年来对其可解释性的研究也引起了广泛关注。
如何在这一领域下令? GAN 学习解耦的表征仍然是一个重大挑战。 GAN 解耦表征,即表征的每个部分只影响图像生成的具体方面。以前是关于 GAN 从不同的角度研究解耦表征。
例如,在下图中 1 中,方法 1 解耦图像的结构和风格。 2 学习图像中局部对象的特征。 3 学习了图像中属性的解耦特征,如人脸图像的年龄属性和性别属性。然而,这些研究还没有进行 GAN 中为不同的视觉概念(例如人脸的眼睛、鼻子和嘴巴等部分)提供一个清晰且符号化的表征。
图 1:与其他 GAN 视觉对比解耦表征法
为此,研究人员提出了一种,该方法确保生成器中间层的卷积核能够学习解耦的局部视觉概念。具体来说,如下图所示 2 所示,与传统 GAN 相比之下,可以解释 GAN 在生成不同图像时,中间层中的每个卷积核始终代表一个特定的视觉概念,而不同的卷积核则代表不同的视觉概念。
图 2:可解释 GAN 与传统 GAN 视觉对比编码表征
可解释 GAN 学习应满足以下两个目标:和。
卷积核的可解释性:研究人员希望中间层的卷积核能够自动学习有意义的视觉概念,而无需手动标记任何视觉概念。具体来说,每个卷积核在生成不同图像时应稳定地生成相应视觉概念的图像区域。不同的卷积核应生成与不同视觉概念相对应的图像区域;
生成图像的真实性:可解释 GAN 生成器仍然产生逼真的图像。
为了保证目标层中卷积核的可解释性,研究人员注意到,当多个卷积核生成与视觉概念对应的相似区域时,它们通常共同代表视觉概念。
因此,他们使用一组卷积核来共同表示一个特定的视觉概念,并使用不同组的卷积核来分别表示不同的视觉概念。
为了保证生成图像的真实性,研究人员设计了传统的损失函数 GAN 修改为可解释的 GAN。
:保证图像生成的真实性;
:给定生成器,用于找到卷积核的划分,使同一组中的卷积核生成相似的图像区域。具体来说,它们使用高斯混合模型 (GMM) 学习卷积核的划分方法,确保每组卷积核的特征图具有相似的神经激活;
:对于给定目标层卷积核的划分,强制同一组中的每个卷积核生成相同的视觉概念可能会降低生成图像的质量。为了进一步保证生成图像的真实性,他们使用能量模型来输出目标层中特征图的真实性概率,并使用大似然估计来学习能量模型的参数;
:给定目标层的卷积核划分方法,用于进一步提高卷积核的可解释性。具体来说,损失将使同一组中的每个卷积核产生相同的图像区域,而不同组的卷积核分别负责生成不同的图像区域。
在实验中,研究人员对他们的解释进行了定性和定量的评估 GAN。
对于,它们可视化每个卷积核的特征图,以评估不同图像中所表达的视觉概念的一致性。
如下图 3 所示,可解释 GAN 在生成不同图像时,每个卷积核始终生成对应于相同视觉概念的图像区域,而不同的卷积核生成对应于不同视觉概念的图像区域。
图 3:可解释 GAN 中特征图的可视化
在实验中,我们还比较了每组卷积核的组分中心与卷积核的感觉野的区别,如下图所示 4(a)所示。图 4(b)给出解释 GAN 不同视觉概念对应卷积核的数量比例。 4(c)这表明,当选定的卷积核组数不同时,组数越多 GAN 学到的视觉概念越详细。
图 4:可解释 GAN 的定性评估
可解释 GAN 还。例如,可以通过交换可解释层中相应的特征图,来实现图像之间特定视觉概念的交互,即完成局部 / 全局换脸。
下图 5 给出了。最后一列给出了修改后的图像和原始图像之间的区别。结果表明,研究人员只修改局部视觉概念,而不改变其他不相关区域。
图 5:交换生成图片的特定视觉概念
此外,下图 6 还给了他们。
图 6:交换生成图片的整张脸
对于,研究人员使用人脸验证实验来评估人脸交换结果的准确性。具体来说,给出一对人脸图像,用源图像替换原始图像的人脸,生成修改后的图像。然后,测试修改后的人脸和源图像的人脸是否有相同的身份。
下表 1 给出了,在身份保持方面,他们的方法优于其他面部交换方法。
表 1:评估换脸身份的准确性
此外,该方法在修改特定视觉概念时的局部性也在实验中进行了评估。具体来说,研究人员已经计算出来了 RGB 修改后的原始图像和图像之间的平均误差 (MSE),在特定视觉概念的区域外 MSE 和区域内 MSE 的比值,作为局部性评估的实验指标。
结果如下表 2 所示,,视觉概念以外的图片区域变化较小。
表 2:修改视觉概念的局部评价
更多实验结果见论文。
这项工作提出了一种传统的方法,可以在没有任何视觉概念的人工标记下使用 GAN 修改为可解释的 GAN。在可解释的 GAN 在生成不同图像时,生成器中间层的每个卷积核都能稳定地生成相同的视觉概念。
实验表明,可以解释 GAN 它还使人们能够在生成的图像上修改特定的视觉概念 GAN 生成图像的可控编辑方法提供了一个新的角度。
[1] Zhu, Jun-Yan, et al. "Unpaired image-to-image translation using cycle-consistent adversarial networks." Proceedings of the IEEE international conference on computer vision. 2017.
[2] Plumerault, Antoine, Hervé Le Borgne, and Céline Hudelot. "Controlling generative models with continuous factors of variations." International Conference on Learning Representations. 2019.
[3] Shen, Yujun, et al. "Interpreting the latent space of gans for semantic face editing." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[4] Chen, Renwang,et al. "Simswap: An efficient framework for high fidelity face swapping." Proceedings of the 28th ACM International Conference on Multimedia. 2020.
[5] Li, Lingzhi, et al. "Advancing high fidelity identity swapping for forgery detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[6] Nirkin, Yuval, Yosi Keller, and Tal Hassner. "Fsgan: Subject agnostic face swapping and reenactment." Proceedings of the IEEE/CVF international conference on computer vision. 2019.
[7] Collins, Edo, et al. "Editing in style: Uncovering the local semantics of gans." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[8] Suzuki, Ryohei, et al. "Spatially controllable image synthesis with internal representation collaging." arXiv preprint arXiv:1811.10153 (2018).
拆解组新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多样性图像生成
附下载 | 《可解释的机器学习》中文版
附下载 |《TensorFlow 2.0 深度学习算法实战》
附下载 |《计算机视觉中的数学方法》分享
《基于深度学习的表面缺陷检测方法综述》
《零样本图像分类综述: 十年进展》
《基于深度神经网络的少样本学习综述》