Learning graph attention-aware knowledge graph embedding 注意学习图中的感知知识图
发表于:Neurocomputing 461(2021) 摘要:知识图是一种利用图结构来表示多关系数据的知识图,广泛应用于推理和预测任务中,近年来引起了广泛的研究。然而,现有的研究大多集中在直接直观地学习知识图嵌入,而不是潜移默化地考虑知识背景。具体地说,最近的模型独立地处理每一个单一的三元组,或者不加区别地考虑上下文,这是片面的,因为每个知识单元(即三元组)可以从其部分的周围三元组派生出来。在本文中,我们提出了一个基于图纸注意的物理编码模型,将知识图描述为不规则图,并通过多个独立的渠道整合图结构的信息来探索一些具体和可解释的知识组合。为了从实体对、关系和结构的不同角度来衡量实体之间的相关性,我们开发了三个注意指标。通过使用增强的物理嵌入,我们进一步引入了几个改进的因素分解函数来更新关系嵌入和评估候选人的三元组。为了验证我们的方法,我们对下游任务进行了大量的实验。实验结果证明了该方法的重要性,并证明该方法可以提高大规模知识图分解模型的性能。 在这项工作中,我们引入了图纸注意机制,为嵌入知识图捕获更丰富、更细粒度的信息。该模型的核心是有选择地合并相邻实体的信息,并利用因子分解函数确定候选三元组的概率,从而在不同的渠道中获得实体的隐藏表示。基于图纸的多重注意机制具有以下优点:(1)通过多渠道处理输入信息,大大提高了嵌入现有知识图的可解释性;(2)通过迭代或叠加图纸注意层,可以轻松实现多跳信息采集;(3)由于算法的并行性和移动性,可以保证任何大规模知识图数据集的泛化。此外,我们还得高质量的实体嵌入,我们还提出了基于不同来源(即实体对、关系和结构)和实现的三个测量来计算注意系数。利用特定的实体嵌入注入策略,改进因子分解函数,训练关系嵌入,对候选三元组进行评分。我们对实体分类、实体类型和链接预测等各种任务的表现进行了评估。并以视觉形式解释图形注意力的工作状态。综合实验结果表明,该方法与基线方法相当或优于基线方法,适用于结构复杂未知的大规模知识图。本文的贡献有三个方面: 在充分考虑实体结构和实体信息的基础上,提出了更新实体嵌入的新图注意机制。 在考虑不同来源和计算策略的基础上,提出了三种基于注意力的方法,并对其捕获多通道信息的能力进行了比较。 我们在实体分类和实体类型方面取得了最新的性能,提高了链接预测中因子分解模型的有效性。 在基于图纸的机器学习任务方法的发展过程中,大量的相关工作通过结合图纸结构和顶点信息来学习获得每个顶点的表示和整个图纸。 在这个方向上的第一个成功尝试是图卷积网络(GCN),它实现了基于循环框架的表示学习。之后,GCN卷积概念采用谱法或基于空间的方法引入不规则图。但基于谱的方法受可扩展性和通用性的限制,不能灵活地应用于增量图或有向图。另一方面,基于空间的模型可以更合理地聚合图形信号,定义不同的邻域信息捕获策略。 图自编码器也用于嵌入学习图,其目的是利用神经网络结构表示节点为低维向量。一种流行的实现方法是使用多层传感器作为嵌入节点的编码器,并设计解码器来重构节点的统计邻域信息,如点对点信息(PPMI)或者一阶和二阶相似。其中,DNGR和SDNE从拓扑结构中学习嵌入节点,ARGA、NetRA和DRNE在拓扑信息和节点特征可用的情况下,学习节点嵌入。图自编码器的一个挑战是邻接矩阵的稀疏性,使得解码器的正条目数远小于负条目数。为了缓解这个问题,DNGR重构一个更密集的矩阵,即PPMI矩阵,SDNE惩罚邻接矩阵中的零项,GAE重权邻接矩阵中的项目,NetRA将图线性化为序列。 图生成网络的目标是在给定一组观测图的情况下生成新图。这些方法中有许多应用于特定领域,最近提出了一些生成方法。例如,MolGAN结合了GCN并加强学习目标,生成具有所需属性的图。其生成器试图构建伪图及其特征矩阵,其目标是区分伪样本和经验数据。同时,MolGAN还引入了一个与识别器并行的奖励网络,鼓励生成的图具具有与外部评估器一致的属性。DGMG基于空间的结合GCN获取现有图片的隐藏表示。特别是节点和边的生成决策过程是基于整个图的表示。除了MolGAN和DGMG,还有一些方法可以通过引入不同的结构来实现图形生成,比如GraphRNN和NetGAN。 图注意网络(Graph ATtention network, GAT)作为MoNet一个特殊的例子提出了一个隐藏的自我关注层,它有选择地调整了邻居的顶级信息,并在转移和归纳学习中取得了最先进的结果。具体来说,通过设置多个注意头,GAT学习了满足不同需求的多通道特征。这一研究方向主要受神经翻译的启发:其有效的注意力设计使翻译模型不依赖于任何递归或卷积操作。目前,ADSF利用结构信息的注意机制,结构信息的注意机制获得图的权值。此外,ELCO图拓扑基于重叠聚类进行了改进,以学习更多可解释的图嵌入。如图所示。1.知识图中的关系根据实体类型进行聚类。因此,实体特征的提取需要通过多个渠道进行,这使得多头关注机制成为建模知识图的自然选择。 在此之前,一些学者试图将图片注意力引入知识图片并嵌入到学习中。然而,他们的方法是有限的,因为每个三元组被视为共存关系,而结构信息并不存在。此外,他们的研究缺乏对注意模块效应的详细分析。据我们所知,我们首先分析了知识图嵌入学习中各种来源的图片注意力。 我们首先介绍了各种注意机制,细化知识图中实体嵌入的学习,然后通过学习关系嵌入进行概率分析。我们详细介绍了任何图形结构中的信息捕获模块,并深入分析了其理论和实践的好处和局限性。 注意函数通常可以描述为一组key-value对的查询,其中查询、键、值和输出都是向量。请注意,函数的输出计算有匹配值的加权和,其中权重是根据查询的匹配程度和相应的键确定的。图中的注意力模型通常用于表示学习,即顶点具有相似特征的邻居,注意函数类比推理定义和应用学习实体嵌入G .具体来说,输入图的注意层是一组物理特征,产生一组新的物理嵌入作为输出,输出嵌入不一定等于原始,这取决于任务要求。 由于相邻实体或实体之间的关系可以作为信息获取的测量,我们将图片注意力的实现分为实体注意力和关系注意力两类。特别是,为了消除三元组对实体关系的约束,我们还引入了结构注意力来评估邻居分布的相关性。 实体Attention 设一个实体ei,其特征为hi,hi你可以从它的邻居实体和它自己收到的一些信息中学习。每个信息源的学习规模由实体对待(ei,ej)的注意系数cij决定。为了获得足够的表达能力,将输入的物理特征转化为高级嵌入,我们使用加性注意作为cij的计算 W是一个可学习的权矩阵,a表示ei对ej的重要性, a是权向量,T移位运算(转位),ReLU是整流线性函数,||是连接操作。在计算加性注意时,采用共享线性变换W预处理实体的输入特征,这是确保实体特征用于测量实体相关性的关键。~a和W为加性注意中包含的参数,多头注意中包含多组不同初始化参数。
我们只选择一级邻居和我们自己作为信息源(我们可以通过层叠加来获得多跳特征)。如图2所示,我们使用它softmax函数将cij为了比较不同实体之间的实体注意系数ae。 其中ni指ei一级邻居数,exp指数函数是基于自然常数的。 关系attention 作为另一个重要的内聚成分,关系类型更清晰、更直接地反映了知识图中实体之间的现实世界联系。即使通过关系链接的实体嵌入更新,或同一关系出现在不同的三元组中,这种关系在语义上并没有改变,总是稳定地描述实体之间的语义。因此,从邻居实体捕获的信息的权重可以通过纯粹依赖关系(不考虑实体)来确定。同时,由于知识图中的关系有自己的类型,因此应统一考虑由类似关系类型连接的实体。例如,图2中橙色和蓝色的关系类型相似(即图1中的美国总统和奥巴马家族)可以看作是两个需要单独处理的不同信息渠道。
具体来说,为了收集与相同类型关系相连的相邻实体提供的实体特征,我们只使用关系计算注意系数(如图2所示)。实体特征初始化对模型性能和收敛速度的影响显著降低。充分利用知识图提供的关系信息。我们还采用了多头注意框架,实现了类似实体注意的多通道特征学习和对象注意head可通过知识图中关系的相关性、任务需求的相关性或随机初始化来确定。通过点积注意可以直接获得注意系数: 其中rij为实体ei和ej关系,head注意每个注意头的训练参数。 我们采用多头注意力机制,将有K个不同的初始注意力学习并行更新实体。关系注意系数aij归一化,获得不同邻居实体的权值,如下所示: 在与ei在连接关系中,我们增加了一种自循环关系,它保留了自己的物理特征,默认设置了权重。类似于实体注意的最终输出嵌入,关系注意的输出hi以图2右半部分所示的形式训练头部。 结构attenton 三元组是知识图中最小的知识单元,上述的同一性注意和关系性注意都是三元组中相关性的度量。事实上,实体的邻居也可以被视为其自身信息的隐式表示。因此,两个实体之间的相关度量应该考虑它们相邻实体的影响。因此,我们提出基于结构指纹(structural fingerprints)来计算两个实体邻居之间的相关性。首先,生成每个目标实体的结构指纹,即根据邻域内实体与目标实体的结构关系确定重要性,并根据目标实体自适应划分其邻域。然后,在评估两个实体之间的相关性时,我们通过分析两个实体的结构指纹之间的关系来计算结果。 直观地说,邻居实体的重要性会随着与目标实体的距离增加而衰减,但这种衰减会由于社区内部结构的连通性/密度而略有变化。常见的高斯衰减和非参数衰减仅仅依靠实体之间的距离来实现权重分布,本质上忽略了结构差异。为了根据局部图结构(连通形状或密度)调整邻域实体的权值,我们使用带重启的随机行走(Random Walk with Restart, RWR)策略计算权值,并完成相应的自适应邻域划分。RWR通过模拟相邻节点间粒子的迭代运动来探索网络的全局拓扑。它量化了网络中节点之间的接近程度,在信息检索等领域得到了广泛的应用。 为了获得实体ei的结构指纹,我们考虑它的邻居实体集Ei和对应的邻接矩阵Ai。粒子从目标实体ei开始,以与关系权值成比例的概率在eii中随机走向它的邻居实体。在每一步中,它也有一定的概率返回到目标实体。迭代过程可以写成 其中Ai~是通过对Ai的列进行归一化得到的转移概率矩阵;c∈[0,1]是随机漫步和重新开始之间的权衡参数,vi是一个除了与目标实体ei相对应的条目之外都是零的向量。收敛解可以写成为 其中,wi量化目标实体与其邻居中所有实体的接近程度。同时,整个结构指纹直观地反映了知识图的局部结构细节,有效地区分了实体的重要性。c控制了邻域权值的衰减率。当c=0时,除目标实体外,wi为0;当c=1时,wi为图上标准随机游动的稳定分布。在实践中,c将由下游任务进行优化,并根据任务需求挖掘子图的结构性质。 在分析两个实体之间的结构相关性时,我们可以利用Jaccard相似度计算两个实体结构指纹之间的相关性, 其中wip和wjp是不同实体邻居集Ei和Ej的权重。邻居实体的结构权值aij可以通过对以下函数的归一化得到: 一旦计算出注意系数,实体ei的最终输出特征hi~通过相邻实体的非线性组合得到,如下所示: 其中σ为sigmoid函数。特别地,为了平衡三种不同的注意力来源,我们将它们合并成最后的注意力。 其中λ、μ、η为手动配置的权值。事实上,实验表明,超参数的调整并没有带来显著的性能提升,所以我们使用平均池来获得最终权重: Normalize是全局归一化函数。 为了实现多通道特征学习,我们使用多头注意框架扩展了图注意机制。具体来说,如图3右侧所示,对应于K个特征学习通道,执行K个独立的注意机制来完成ei的特征学习,并连接在一起形成如下输出嵌入 为了获得充分考虑结构和节点信息的实体嵌入,我们利用实体分类任务提供的交叉熵损失来训练注意参数。 由于我们根据这些关系的聚类现象在关联注意中设置了注意头,因此我们将嵌入在特定单个注意头中的实体馈送到图3中。根据候选三元组中关系的聚类,将基于多头图注意头的实体嵌入更新到DistMult, ComplEx, ConvE中。 设置loss函数为: 实验结果:
个人总结:本文实现了先通过图注意力对三元组节点进行训练,再将训练好的节点输入至DistMult, ComplEx, ConvE中,最后在接上一个softmax分类层对三元组分类的准确度进行评分。在图注意力的基础上关系注意力和节后注意力作为权重加了进去,得到了一个最终的权重。但在GAT模块没有对关系进行处理,可以仅仅理解为对实体进行了信息聚合,关系没有任何变化,这也是在之后还需要另一个嵌入模型做“二次嵌入”的原因吧。不过我发现目前的嵌入模型都已经转入了信息聚合的领域,同时也专注于关系的作用。三元组关系的含义包含了实体的类别信息,应当利用这种类别信息对关系或实体的嵌入进行改进。