资讯详情

An Industry Evaluation of Embedding-based Entity Alignment

基于嵌入实体对齐的行业评估

An Industry Evaluation of Embedding-based Entity Alignment

Ziheng Zhang1?, Jiaoyan Chen2?, Xi Chen1??, Hualuo Liu1, Yuejia Xiang1, Bo Liu1, Yefeng Zheng1

1Tencent Jarvis Lab, Shenzhen, China 2 Department of Computer Science, University of Oxford, UK

近年来,基于嵌入式物理对齐的研究得到了广泛的研究,但大多数方法仍然依赖于理想的监督和学习设置,使用大量的无偏种子映射进行训练和验证,这极大地限制了它们的使用。在这项研究中,我们在行业背景下评估了这些最先进的方法,规模和偏差种子映射的影响。除了来自 DBpedia 和 Wikidata 除了流行基准,我们还从两个异构知识图谱中贡献和评估了一个新的行业基准 (KG) 医疗应用部署中提取的。实验结果有助于分析这些对齐方法的优缺点,并进一步讨论适合其行业部署的策略。

1介绍

知识图谱 (KG),例如 DBpedia (Auer et al., 2007)、Wikidata (Vrande c ? \breve{\text c} c?i c ˊ \acute {\text c} cˊ and Kr o ¨ \ddot {\text o} o¨tzsch, 2014) 和 YAGO (Suchanek et al., 2007) 它在问答和搜索引擎等各种应用中发挥着越来越重要的作用。KG 构建通常包括命名实体识别等几个组件 (NER) (Li et al., 2018年) (RE) (Zhang et al., 2019a) 和知识校正 (Chen et al., 2020))。然而单个 KG 内容往往不完整,导致知识覆盖面有限,特别是在支持特定领域的应用方面(F a ¨ \ddot {\text a} a¨rber 等人,2018 年;Demartini,2019 年)。在对齐系统的帮助下,广泛使用的解决方案是合并多个解决方案 KG(例如,具有特定领域细粒度知识的企业 KG 一般覆盖面广,覆盖面广 KG),对齐系统可以找到跨度 KG 的实体、关系和类映射(Otero-Cerdeira 等人,2015;Yan 等人,2016)。

由于 Wikidata 等待大数据(即大量事实) KG 基于嵌入的普及 实 体 对 齐 实体对齐 实体对齐最近引起了更多的关注。传统的对齐系统,如 PARIS (Suchanek et al., 2011) 和 LogMap (Jim e ˊ \acute {\text e} eˊnez-Ruiz and Grau, 2011),它们通常依赖于词法匹配和语义推理(例如,用于检查是否违反了关系的定义域和值域定义) , 被认为在利用上下文语义方面很弱,尤其是如此大的 KG 的图结构。为了解决这个问题,已经提出了一些新的基于嵌入的方法,并使用了不同的 KG 嵌入方法,例如 TransE (Bordes et al., 2013) 和图神经网络 (GNNs) (Scarselli et al., 2008),以及来自主动学习(Berrendorf et al., 2020)、多视图学习(Zhang et al., 2019b)等的一些算法。

我们发现所有这些基于嵌入的实体对齐方法都依赖于 种 子 映 射 种子映射 种子映射在训练中进行监督或半监督。它们通常利用从 DBpedia、Wikidata 和 YAGO 中抽取的基准进行评估,所有这些都是从同一来源构建的,即 Wikipedia。这些方法通常使用所有真实映射的30% (甚至更高)来构建模型,并且训练和验证集是随机抽取的,测试集具有相同的分布。

然而,在行业应用中,这些种子映射不仅需要专业知识,还需要大量人工标注,尤其是当两个大型 KG 来自完全不同的来源时。尽管可以标注少量种子映射,但在实体名称、属性、图结构等方面,它们与用于预测的剩余映射相比通常存在偏差。图 1显示了来自腾讯科技的两个采样得到的医学 KG 的所有映射的分布(更多细节参见第 3.1节),有两个维度——映射实体名称之间的相似度和映射实体的平均属性数。当我们直接邀请专家或利用下游应用对映射进行标注时,标注的映射可以作为训练时的种子映射,它们通常位于名称相似度高、属性数大的右下方区域(如图 1中的红色块所示)。因此,我们认为种子映射应该具有以下特点,以使这些监督方法的评估更加实用。首先,种子映射应该占所有映射的一小部分,例如3%,远小于之前的实验设置。其次,种子映射应该在实体名称相似度、平均属性数或两方面与其余映射有偏差。在当前评估中,这种偏差被忽略了。

img

图 1:两个采样的医学 KG 的映射分布。横轴表示属性的平均数量,纵轴表示实体名称之间的编辑距离。

在这项工作中,我们在行业场景系统地评估了四种最先进的基于嵌入的 KG 对齐方法。该实验使用来自 DBpedia 和 Wikidata 的一个开放基准,来自两个具有异质内容的企业医学 KG 的一个行业基准,以及一系列不同规模的、带有名称偏差和属性偏差的种子映射。性能分析考虑全部测试映射以及它们的不同分割以进行细粒度观察。这些方法也与传统系统 PARIS 进行了比较。据我们所知,这是第一个从行业角度评估和分析基于嵌入的实体对齐方法的工作。我们发现这些方法在很大程度上依赖于理想的监督学习环境,并且在行业背景下测试时性能会急剧下降。基于这些结果,我们可以进一步讨论将它们部署到实际应用中的可能性以及合适的采样策略。新的基准和种子映射还有益于研究界的未来研究,可在以下网址公开获得https://github.com/ZihengZZH/industry-eval-EA。

2 预备知识及相关工作

2.1基于嵌入的实体对齐

大多数现有的基于嵌入的实体对齐方法都符合以下三步范式:(i)通过基于平移的方法,如 TransE(Bordes 等人,2013),或基于图神经网络(GNNs) (Scarselli et al., 2008)的方法,递归地聚合相邻实体和关系的嵌入;(ii)通过学习变换矩阵、共享对齐实体的嵌入或交换相关三元组中对齐的实体,将一个 KG 空间中的实体嵌入映射到另一个 KG 空间;(iii)通过使用余弦相似度等指标计算嵌入空间中的距离,在另一个 KG 中搜索对应实体。值得注意的是,种子映射的作用主要在步骤(ii),对齐两个 KG 的嵌入。

具体来说,我们评估了四种方法,即 (Sun et al., 2018)、 (Zhang et al., 2019b)、 (Wu et al., 2019) 和 (Guo et al., 2018)。一方面,根据他们自己的评估和基准研究(Sun et al., 2020),他们在理想的监督学习环境中取得了最好的表现;另一方面,它们代表了文献中广泛使用的不同技术。四种方法介绍如下。

是一种半监督方法,它采用基于平移的模型进行嵌入,并通过引导(bootstrapping)迭代训练分类器。在每次迭代中,分类器标注新的可能映射,那些不会引起冲突的映射被添加到下一次迭代中用于训练。

利用多视图学习将不同的语义信息编码到预测模型中。具体来说,分别为实体名称、实体属性和图结构开发了三个视图。

应用 GCN 变体 Dual-Primal GCN (Monti et al., 2018) 以利用 KG 嵌入中的关系信息。与那些基于平移的嵌入方法相比,它可以更好地利用图结构,特别是在处理三角结构时。

首先生成两个 KG 的有偏随机游走(长路径)作为序列,然后通过名为 Recurrent Skipping Network 的序列模型学习嵌入。这里的种子映射用于生成跨 KG 游走,从而探索跨 KG 实体之间的相关性。

2.2 种子映射

据我们所知,目前基于嵌入的实体对齐方法主要依赖于种子映射,其作用已在2.1节中介绍,用 于监督或半监督学习。特别地,我们也可以考虑一些启发式规则,例如字符串和属性匹配来生成种子映射,如 IMUSE 方法(He et al., 2019)所做的,但种子映射的影响是相似的,研究这种影响也有利于远程监督方法。

此外,尽管 BootEA (Sun et al., 2018) 和 SEA (Pei et al., 2019) 等一些半监督方法对种子映射的依赖程度较低,但在用一小部分种子映射进行训练时,它们的性能可能因数据而异,并受种子映射偏差的影响。

在这些方法的自我评估和最近的基准研究(Sun et al., 2020)中,全部真实映射的20%和10%分别用于训练和验证,更重要的是,它们是随机选择的,从而保持与测试映射相同的分布。这违反了行业中的实际场景,其中标注种子映射的成本很高,并且标注的通常是有偏差的,如第 1节所述。实际上,种子映射的研究相对较少,并且只考虑了种子映射的比例。在Sun等人(2018)和Wu等人(2019)评估所提出的方法时,用于训练的种子映射比例从10%到40%。然而,在对齐两个大 KG 时,最小比例仍然会导致非常大量(例如,1.5K)的种子映射。

2.3 基准

当前评估基于嵌入的方法的基准通常来自 DBpedia、Wikidata 和 YAGO。它们可以分为两类。第一类包括那些用于跨语言实体对齐的,例如 DBP15K (Sun et al., 2017) 和 WK3l60k (Chen et al., 2018),它们都支持英语的 DBpedia 实体和其他语言的 DBpedia 实体之间的对齐,比如中文或者法语。这些基准通常只支持 KG 内对齐。第二类包括那些用于跨KG实体对齐的,例如DWY15K(Guo et al., 2018)和DWY100K(Sun et al., 2018),它们都是DBpedia和Wikidata / YAGO之间的对齐。

正如 Sun 等人(2020)所讨论的那样,与原始 KG 中的正常实体相比,上述基准中的实体存在显著偏差;例如,WK3l60k 中的那些 DBpedia 实体的平均连接度为22.77,而全部 DBpedia 实体的是6.93。因此,这些基准并不能代表 DBpedia、Wikidata 和 YAGO。为了解决这个问题,Sun=】等人(2020)提出了一种新的基于度的迭代采样算法,以抽取 DBpedia 内的跨语言实体对齐和 DBpedia 与 Wikidata/YAGO 之间的跨 KG 实体对齐的新基准。尽管新的基准在图结构方面更具代表性,但用rdfs:label定义的实体标签被删除,其中包括重要的名称信息,这使得它们对现实世界的对齐上下文的代表性降低。更重要的是,由于 DBpedia、Wikidata 和 YAGO 是利用同一来源 Wikipedia 构建的,因此对齐的实体通常具有相似的名称、属性或图结构。因此,这些基准不适用于现实世界的对齐方式,即旨在使不同来源的 KG 相互补充。为了进行行业评估,我们利用两个行业 KG 构建了一个新基准(参见第 3.1节)。

值得注意的是,本体对齐评估倡议(Ontology Alignment Evaluation Initiatives)1自 2018 年以来一直在组织 KG 赛道(Hertling 和 Paulheim,2020)。使用的基准是从 Fandom 的几个不同 Wiki 中抽取的 KG;2例如,starwars-swg 是一个基准,包含来自 Star Wars Wiki 和 Star Wars Galaxies Wiki 的两个 KG 之间的映射。尽管采用了多个基准,但规模有限;例如, 2019 年使用的5个中有4个的实体映射少于 2K。由于一个基准的两个 KG 是关于一个具体主题(如电影和星球大战游戏)的两个中心(hub)事物,实体名称几乎没有歧义,成为对齐的优质指标。因此,它们不适合用于评估基于嵌入的实体对齐方法的行业基准。

3 数据生成

3.1行业基准

为了在上述行业背景下评估基于嵌入的实体对齐方法,我们首先从两个真实世界的医学 KG 中抽取基准进行对齐。一个KG是根据多个权威医疗资源创建的,涵盖疾病、症状、药物等细粒度知识,用于支持我司问答、医疗助手等应用。然而,它的一些实体信息不完整,缺少许多重要属性,这限制了它的可用性。我们根据下游应用的反馈抽取了大约 1万个这样的实体。然后将它们与另一个 KG 对齐以提高信息完整性。该KG是从最大的中文百科全书——百度百科3的信息框中抽取的,通过 NLP 技术(例如 NER 和 RE)以及一些手工的工程工作。我们用众包的方式来标注映射,使用基于标签和同义词的启发式规则,以及用于支持信息检查的友好界面来提供帮助。最后,我们获得了9,162个一对一的实体映射,在此基础上,从原始 KG 中抽取了子 KG。具体来说,子 KG 包括由与这些映射相关联的实体组成的三元组。这两个子KG 被命名为 MED 和 BBK,新的基准命名为 MED-BBK-9K。

MED-BBK-9K 和另一个基准 D-W-15K 的更多细节如表 1所示,D-W-15K 是在V2的设置下通过基于度的迭代采样方法抽取的(Sun et al., 2020),其中 # 表示数量,度(degree) 是三元组数和实体数之间的比率。关系三元组和属性三元组的统计数据分别在表 1中给出。请注意,关系相当于连接两个实体的对象属性,而属性相当于将实体与某种数据类型的值相关联的数据属性。MED-BBK-9K 的两个实体映射示例如图 2 所示,其中绿色椭圆表示跨 KG 的对齐实体,白色椭圆和实线箭头表示其关系三元组4,红色矩形和虚线箭头表示其属性三元组,值包括正常值、句子描述和噪声值。通过统计和实例可以得出,MED-BBK-9K中的KG与D-W-15K中的KG有很大不同,具有更高的关系度、更少的属性、更高的异质性等。

表 1:MED-BBK-9K 和 D-W-15K 的统计数据。

图 2:来自 MED-BBK-9K 的两个映射示例,带有英文翻译。

3.2 有偏差的种子映射

除了行业基准之外,我们还开发了一种新方法来为行业背景抽取有偏的种子映射。我们首先引入两个变量, s n a m e s_{name} sname​和 n a t t r n_{attr} nattr​,其中 s n a m e s_{name} sname​ 是归一化的 Levenshtein 距离——在[0,1]区间的编辑距离度量 (Navarro, 2001),用于每个映射的两个实体的名称字符串的比较, n a t t r n_{attr} nattr​ 是每个映射的实体的平均属性数。对于 D-W-15K 中的 Wikidata 实体,我们使用P373和P1476的属性值作为实体名称,而对于 DBpedia 实体,我们使用 URI 中的实体名称。请注意,当一个映射中的一个或两个实体有多个名称时,我们采用相似度最高的两个名称,即 s n a m e s_{name} sname​最低的名称。同时,在计算 s n a m e s_{name} sname​之前对所有名称进行预处理:破折号、下划线和反斜杠用空格替换,标点符号删除,字母转换为小写。

计算出 s n a m e s_{name} sname​和 n a t t r n_{attr} nattr​后,我们根据名称相似度或属性数量将所有映射分成三个不同的部分。对于名称相似度,映射分为“相同”( s n a m e s_{name} sname​ = 1.0)、“接近”( s n a m e s_{name} sname​ < 1.0)和“不同”( s n a m e s_{name} sname​为NA,即没有有效的实体名称),适用于 MED-BBK-9K 和 D-W-15K。从属性数量上,映射分为“大”( n a t t r ≥ k 1 n_{attr}\ge k_1 nattr​≥k1​)、“中”( k 2 ≤ n a t t r < k 1 k_2\le n_{attr}< k_1 k2​≤nattr​<k1​ ) 和“小” ( n a t t r < k 2 n_{attr}< k_2 nattr​<k2​),其中 ( k 1 , k 2 ) (k_1, k_2) (k1​,k2​)对于 MED-BBK-9K设置为(5 , 2) ,对于 D-W-15K设置为(10 , 4) .

我们进一步开发了一种迭代算法来抽取具有名称偏差和属性偏差的种子映射。它的步骤如下所示,有两个输入,即所有映射的集合 M a l l \mathcal M_{all} Mall​和种子映射的规模 N s e e d N_{seed} Nseed​,以及一个输出,即有偏的种子映射集合 M s e e d \mathcal M_{seed} Mseed​。

(1)初始化有偏种子映射集合 M s e e d \mathcal M_{seed} Mseed​。

(2)为 M a l l \mathcal M_{all} Mall​中每个映射分配一个分数: z = z n a m e + z a t t r z = z_{name} + z_{attr} z=zname​+zattr​ ,其中如果映射分别属于“相同”、“接近”和“不同”,则 z n a m e z_{name} zname​分别设置为4、3和1,如果映射分别属于“大”、“中”和“小”,则 z a t t r z_{attr} zattr​设置为4、3和1。请注意,所有映射都分配了8、7、6、5、4或2中的一个分数。

(3)将 M a l l \mathcal M_{all} Mall​中得分最高的映射移动到 M s e e d \mathcal M_{seed} Mseed​。如果 M a l l \mathcal M_{all} Mall​中多个映射都具有最高分数,则随机选择一个。

(4)检查 M s e e d \mathcal M_{seed} Mseed​的规模是否等于或大于 N s e e d N_{seed} Nseed​。如果是,返回种子;否则转步骤(3)。

利用上述步骤,我们还可以通过设置 z = z n a m e z = z_{name} z=zname​得到只有名字偏差的种子映射,以及通过设置 z = z a t t r z = z_{attr} z=zattr​得到只有属性偏差的种子映射。注意种子映射 M s e e d \mathcal M_{seed} Mseed​包括训练映射和验证映射。在我们的实验中,前者占据了种子映射的三分之二,而后者占据了三分之一。

4 评估

4.1 实验设置

我们首先进行总体评估(参见第 4.2 节)。具体来说,BootEA、MultiKE、RDGCN 和 RSN4EA 方法在 (i) 下进行测试,其中种子映射既有名称偏差又有属性偏差,训练(验证)映射的比例为2%( 1%)(ii)在进行测试,其中种子映射是随机选择的,没有偏差,训练(验证)映射的比例为20%(10%)。然后,我们进行消融研究,独立分析种子映射的三个影响,包括规模、名称偏差和属性偏差。

在整体评估和消融研究中,我们使用全部测试映射计算指标 Hits@ 1、Hits@ 5和平均倒数排名(MRR)。对于每个测试映射,候选实体(即目标KG中的所有实体)根据其预测分数进行排名;Hits@ 1(Hits@ 5) 是测试映射的真实实体排名前1(前5)的比率;MRR 是真实实体的平均倒数排名。同时,为了进一步分析不同类型测试映射上种子映射的影响,我们将测试映射分为两个三折分割——从名称偏差方面分为“相同”、“接近”和“不同”,以及从属性偏差方面分为”小”、“中” 和“大”。

我们采用了 OpenEA 中 BootEA、MultiKE、RDGCN 和 RSN4EA 的实现,根据验证集调整了它们的超参数。具体来说,批量规模设置为5000,提前停止标准设置为验证集时上的 Hits@ 1开始下降(每10 个epoch 检查一次),最大 epoch 数设置为2000。由于 MultiKE 和 RDGCN 使用文字,词嵌入是使用在 Wikipedia 2017、UMBC 网络数据库语料库和 statmt.org 新闻数据集5上预训练的 fastText 模型生成的。为了在 MED-BBK-9K 上运行它们,中文词嵌入是通过腾讯科技6在大型医学语料库上预训练的医学专用 BERT 模型获得的。

最后,我们将这些基于嵌入的方法与最先进的传统系统 PARIS (v0.3) 7进行比较,该系统基于词法匹配和关系映射、类映射和实体映射并考虑几种映射的相关性(逻辑一致性)的迭代计算 (Suchanek et al., 2011)。我们采用 PARIS 的默认超参数。请注意,PARIS 不需要用于监督的种子映射。由于 PARIS 不会对所有候选实体进行排名,因此我们使用 Precision、Recall 和 F1-score 作为评估指标。对于基于嵌入的方法,我们的一对一映射评估中的Hits@ 1等价于 Precision、Recall 和 F1-score。

4.2 总体结果

表 2 展示了这些基于嵌入的方法在理想环境和行业背景下在 D-W-15K 和 MED-BBK-9K 上的结果。一方面,我们发现 当 测 试 环 境 从 理 想 环 境 转 移 到 行 业 背 景 时 , 所 有 四 种 方 法 的 性 能 都 会 显 著 下 降 当测试环境从理想环境转移到行业背景时,所有四种方法的性能都会显著下降 当测试环境从理想环境转移到行业背景时,所有四种方法的性能都会显著下降,而后者因其种子映射较少且有偏差而更具挑战性。例如,全部测试映射上所有四种方法的平均 MRR,在 D-W-15K 上从0.661(应该是0.706)下降到0.262,MED-BBK-9K 上从0.327下降到0.118。

表 2:理想环境和行业背景下的总体结果。

我们还发现,当转移到行业背景时,性能下降在不同测试映射分割中有所不同。考虑基于名称的分割,性能下降在“不同”分割上最显著,在“相同”分割上最不显著。以 MED-BBK-9K 上的 MultiKE为例,它的Hits@分别在“相同”、“

标签: 矩形连接器he006

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台