目录
- 鼓励反向传播Excitation Backprop(ECCV2016)
- 摘要
- 1.Introduction
- 2.Related Work
-
- 2.1.Interpretability
- 2.2.GCNNs
- 3.Method
-
- 3.1.Explainability for CNNs
- 3.2.Graph Convolutional Neural Networks
- 3.3.Explainability for Graph Convolutional Neural Networks
- 4.Experiments
-
- 4.1.视觉场景解释
- 4.2.解释分子图
- 4.3.三个量化指标
- 4.4.结果
- 个人总结
鼓励反向传播Excitation Backprop(ECCV2016)
现代的CNN模型总是由基本的神经元组成 a i a_{i} ai成分,其响应是 a ^ i = ? ( ∑ j w j i a ^ j b j ) \widehat{a}_{i}=\phi(\sum_{j}w_{ji}\widehat{a}_{j} b_{j}) a i=?(∑jwjia j+bj),其中 w j i w_{ji} wji是权重, a ^ j \widehat{a}_{j} a j是输入。我们把这种类型的神经元叫激活神经元。对于激活神经元,我们有下面假设:
- A1:激活神经元的响应为非负性;
- A2:激活神经元被调整以检测某些视觉特征。其响应与其检测的置信度呈正相关。
A1适用于大多数现代CNN模型,因为它们采用ReLU作为激活函数。A2已经被最近的许多工作验证。据观察,较低层次的神经元可以检测边缘和颜色等简单特征,而较高层次的神经元可以检测物体和body部位等语义特征。
在激活神经元之间,我们定义一种连接,如果其 w j i w_{ji} wji为非负,则为兴奋性(excitatory),否则为抑制性(inhibitory)。我们的激励反向传播通过激活神经元之间的兴奋性连接传递着自顶向下(top-down)的信号。形式上,用 C i C_{i} Ci表示 a i a_{i} ai的子节点集(节点的graph按照top-down顺序描述, C i C_{i} Ci的元素是有兴奋性连接到 a i a_{i} ai的一阶子节点)。对于每个 a j ∈ C i a_{j}\in C_{i} aj∈Ci,条件获胜概率 P ( a j ∣ a i ) P(a_{j}|a_{i}) P(aj∣ai)为: 其中, Z i = 1 / ∑ j : w j i ≥ 0 a ^ j w j i Z_{i}=1/\sum_{j:w_{ji}\geq 0}\widehat{a}_{j}w_{ji} Zi=1/∑j:wji≥0a jwji是归一化因子,比如 ∑ a j ∈ C i P ( a j ∣ a i ) = 1 \sum_{a_{j}\in C_{i}}P(a_{j}|a_{i})=1 ∑aj∈CiP(aj∣ai)=1。特别的,如果 ∑ j : w j i ≥ 0 a ^ j w j i = 0 \sum_{j:w_{ji}\geq 0}\widehat{a}_{j}w_{ji}=0 ∑j:wji≥0a jwji=0,我们定义 Z i = 0 Z_{i}=0 Zi=0,注意到, P ( a j ∣ a i ) P(a_{j}|a_{i}) P(aj∣ai)因为A1而有效,因为 a ^ j \widehat{a}_{j} a j总是非负的。
上面式子假设如果 a i a_{i} ai是获胜神经元,下一个获胜神经元将会在它的子节点集 C i C_{i} Ci中采样(基于连接权重 w j i w_{ji} wji和输入神经元的响应 a ^ j \widehat{a}_{j} a j)。权重 w j i w_{ji} wji捕捉了top-down的特征期望, a ^ j \widehat{a}_{j} a j代表bottom-up的特征强度,正如A2所述。由于A1,具有负连接权重的 a i a_{i} ai的子神经元总是对 a i a_{i} ai有抑制作用,因此被排除在竞争之外。
换言之, P ( a j ∣ a i ) P(a_{j}|a_{i}) P(aj∣ai)表示:当 a i a_{i} ai是获胜神经元时,对于与其有兴奋性连接的一阶神经元,各个神经元 a j a_{j} aj对 a i a_{i} ai产生影响的强度大小。
用上面那个公式逐层递归传播自上而下的信号,我们可以从任何中间卷积层计算注意力图。对于我们的方法,我们只需将跨通道的feature maps求和生成一个边缘获胜概率图(MWP,marginal winning probability,边缘概率分布)作为我们的注意力图,即2D概率直方图。下图显示了使用预训练的VGG16模型生成的一些MWP图示例。更高层的神经元有更大的感受野和步幅。因此,它们可以捕获更大的区域,但空间精度较低。较低层次的神经元倾向于在较小的尺度上更精确地定位特征。
- 边缘获胜概率(MWP)图,通过在ImageNet上训练的公共VGG16模型的不同层的激励Backprop计算得出。更高层的神经元有更大的感受野和步幅。因此,它们可以捕获更大的区域,但空间精度较低。较低层次的神经元倾向于在较小的尺度上更精确地定位特征。
。反向传播目的是为参数传播得到梯度,并进行element-wise的相减的更新,激励反向传播则是传播得到特征图的逐像素的概率程度,我们需要进行element-wise相乘的更新。最后得到的MWP是关于最终预测结果在不同层级上的特征感知。
摘要
随着图卷积神经网络(GCNNs)的广泛使用,对其可解释性的需求也随之产生。本文介绍了GCNNs的可解释性方法。我们为卷积神经网络开发了三种重要的可解释性方法的图类似物:基于梯度的对比显著性图(CG,contrastive gradient-based)、类激活映射(CAM,Class Activation Mapping)和激励反向传播(EB,Excitation Backpropagation)及其变体、梯度加权CAM(Grad-CAM,gradient-weighted CAM)和对比EB(c-EB,contrastive EB)。我们在两个应用领域:视觉场景图和分子图的分类问题上证明了这些方法可行。为了比较这些方法,我们确定了三个理想的可解释属性:(1)它们对分类的重要性,通过遮挡的影响来衡量,(2)它们对不同类别的对比度,以及(3)它们在图上的稀疏性。我们将相应的量化指标称为保真度(fidelity)、对比度(contrastivity)和稀疏度(sparsity),并对每种方法进行评估。最后,我们分析了从解释结果中获得的显著性子图,并报告了一些频繁出现的模式。
1.Introduction
计算机视觉领域最近的成功主要归功于深度卷积神经网络(CNN)的出现。这导致了在各种计算机视觉任务上的最新表现,包括目标识别、目标检测和语义分割。CNN的端到端学习特性使其成为从大量视觉数据学习的强大工具。同时,这种端到端的学习策略阻碍了CNN决策的可解释性。最近,有越来越多的研究CNN内部工作机制的著作。
然而,深层CNN是为欧几里德空间中的网格结构数据(如图像)而设计的,因为卷积是在欧几里德空间上定义的一种操作,用于有序元素的输入。尽管如此,在许多应用中,我们需要处理在不同结构上定义的数据,例如图graph和流形manifold,这种情况下CNN不能直接使用。这种非欧几里德空间出现在各种应用中,包括场景图分析、3D形状分析、社交网络和化学分子结构。几何深度学习是最近兴起的一个领域,旨在克服CNN的局限性并拓宽其应用范围。特别是,通过将卷积运算扩展到图和一般非欧几里德空间,可以将CNN推广到适用于图结构数据。将CNN扩展到非欧几里德空间导致了图卷积神经网络(GCNN)的出现。
除了模型的优异性能之外,我们还需要一些技术来解释为什么模型会预测它所预测的内容。这种解释有助于识别与特定任务中模型决策相关的部分输入数据。受CNN可解释性工作的启发,我们介绍了GCNNs决策的可解释性方法。可解释性对图尤其有用,甚至比图像更有用,因为非专家人员无法直观地确定图中的相关上下文,例如,识别有助于分类分子特定属性的原子组(分子图上的子结构)。
我们采用了最初为CNN设计的三种常见解释方法,并将其扩展到GCNNs。这三种方法是基于梯度的显著性图、类激活映射(CAM)和激励反向传播(EB)。此外,我们采用了两种变体:梯度加权CAM(Grad CAM)和对比EB。我们将改进方法用于两种不同的场景:视觉场景图(visual scene graphs)和分子图(molecular graphs)。对于GCNNs,我们使用Kipf等人提出的公式。我们在这项工作中的具体贡献有以下三点:
- 将CNN的可解释方法迁移到GCNN;
- 两个图分类问题的可解释性技术演示:视觉场景图和分子图;
- 使用保真度、对比度和稀疏度指标描述每种方法。
本文的其余部分结构如下。在第2节中,我们讨论了可解释性和GCNNs的相关工作。在第3节中,我们回顾了GCNNs的数学定义和CNN上的可解释方法,然后定义了GCNNs上的类似可解释方法。在第4节中,我们详细介绍了我们在视觉场景图和分子上的实验,并给出了示例结果。此外,我们还从三个指标(保真度、对比度和稀疏度)对这四种方法的性能进行了定量评估,每个指标都旨在捕捉可解释的某些理想特性。我们使用这些指标来评估每种方法的优点。最后,在实验部分,我们分析了Grad CAM识别的显著子结构,并报告了每个数据集的最佳结果。
2.Related Work
2.1.Interpretability
一般深层神经网络的一个长期局限性是难以解释分类结果。最近,针对深层网络,特别是CNN设计了可解释性方法。这些方法使人们能够探测CNN并识别输入数据的重要子结构,以便就任务做出决策,这可以用作解释工具或发现数据中未知底层子结构的工具。例如,在医学成像领域,除了对具有恶性病变的图像进行分类外,还可以对其进行定位,因为CNN可以为输入图像的分类提供推理。
在输入数据上生成灵敏度图(sensitivity map)以发现底层子结构重要性的最直接方法是,通过考虑输出相对于网络输入的梯度来计算梯度图。然而,梯度图通常包含过度的噪声。更先进的技术包括类激活映射(CAM,Class Activation Mapping)、梯度加权类激活映射(Grad-CAM)和激励反向传播(EB)通过考虑上下文的一些概念来改进梯度图。这些技术已被证明对CNN有效,并且可以识别图像中高度抽象的概念。
2.2.GCNNs
GCNNs的数学基础深深植根于图处理和图论领域,在图论中,傅里叶变换和卷积等信号运算被扩展到图上的信号。基于图论的GCNN可以定义类似于CNN的参数化滤波器。然而,它们的计算成本往往很高,因此速度很慢。为了克服谱GCNN的计算瓶颈,许多作者提出在谱域中近似平滑滤波器,例如使用切比雪夫多项式或图卷积的一阶近似。在这项工作中,我们使用Kipf和Welling定义的GCNN公式,因为它的训练时间更快,预测精度更高。
GCNN最近得到了广泛应用。Monti等人使用GCNNs进行超像素分类,以及对引文网络中的研究论文进行分类。Defferard等人使用Ngrams上的GCNNs进行文本分类。GCNN也可以用于形状分割,用于基于骨架的动作识别。最近,Johnson等人使用GCNNs分析场景图,并应用场景图生成图像。在化学中,GCNN被用来预测有机分子的各种化学性质。GCNN在一些化学预测任务上提供了最先进的性能,包括毒性预测、溶解度预测和能量预测。本文主要研究GCNNs的可解释性方法及其在场景图分类和分子分类中的应用。
3.Method
我们比较和对比了常用的可解释性方法在图卷积神经网络(GCNN)中的应用。此外,我们还探讨了对这些方法进行一些增强的好处。
3.1.Explainability for CNNs
三种主要的解释方法是对比梯度法(contrastive gradients)、类激活映射法(Class Activation Mapping)和激励反向传播法(Excitation Backpropagation)。
(Contrastive gradient-based saliency maps)可能是最直接最成熟的方法。在这种方法中,只需要区分模型输出与模型输入,因此,可以创建一个heat map,其中,输出相对输入变量上的梯度表示该输入相对于输出的重要性。因此,舍弃梯度中的负值,仅保留对解决方案有积极贡献的输入部分: L G r a d i e n t c = ∣ ∣ R e L U ( ∂ y c ∂ x ) ∣ ∣ L_{Gradient}^{c}=||ReLU(\frac{\partial y^{c}}{\partial x})|| LGradientc=∣∣ReLU(∂x∂yc)∣∣其中, y c y^{c}