资讯详情

知识图谱的最新进展、关键技术和挑战

最新进展、关键技术和挑战知识图谱

人工智能技术与咨询

本文来自《工程科学报》,作者马忠贵等

随着知识的不断积累和科学的快速发展,人类社会进行了许多改变社会结构的重大生产力革命。最近的生产力革命是由Web信息革命是由技术发展引发的。伴随着Web随着技术的不断发展,人类即将走向基于知识互联的新Web3.时代[1]0。受语义网络(Semantic network)和语义网(Semantic web)的启发,Google公司提出了知识图谱(Knowledge graph)目的是提高搜索引擎的智能能力,提高用户的搜索质量和体验。随后,这一概念得到了传播,并广泛应用于医疗、教育、金融、电子商务等行业,推动人工智能从感知智能向认知智能的飞跃。目前,国外有代表性的知识图谱已经涌现出来YAGO[3]、DBpedia[4]、Freebase[5]、NELL[6]、Probase[7]等;国内开放知识图谱项目OpenKG[8]中文知识图谱CN-DBpedia[9]、zhishi.me[10]等。知识图谱的本质是连接实体关系的图,即揭示实体关系的语义网络[11],一般采用资源描述框架(Resource description framework,RDF)描述知识。知识地图的整个生命周期主要包括三种关键技术:(1)从样本源中获取数据,并提取和表达结构化知识;(2)整合异源知识的知识整合技术;(3)根据知识地图中现有的知识进行知识推理和质量评价。

近年来,越来越多的学者关注认知智能,知识图谱越来越受到关注。除了知识图谱技术文章的爆炸性增长外,还有越来越多的综述文章。文献[11]全面分析了知识地图的相关技术,总结了知识地图核心技术的研究进展和典型应用,总结了知识地图的推理方法,展望了未来的研究方向,定义了知识地图与本体的关系,简要介绍了国内外开发的知识地图。2019年底和2020年初,中国专门出版了3张知识图[16-18],我们有动机写这篇论文。与现有综述文献相比,本文的主要贡献如下:从知识提取与表达、知识整合、知识推理、知识应用四个层面梳理知识地图的整个生命周期技术,建立方法思维。由于篇幅有限,选择了知识图谱的四大关键技术,重点介绍了知识融合和知识推理技术的最新进展。同时,简要介绍了当前知识图谱的挑战,展望了未来的发展方向。

1. 提取和表达知识

对于知识地图,第一个问题是:如何从大量数据中提取有用的信息,并有效地表达和存储获得的信息,即所谓的知识提取和表达技术。知识提取和表达也可以称为信息提取。其目标是从样本源中提取特定类型的信息,如实体、关系和属性,并以一定的形式表达和存储。一般采用知识图谱RDF描述知识,将有效信息表示为三元组(主语、谓语、宾语)的结构,部分文献也表示为(头实体、关系、尾实体)的结构。针对信息抽取种类的不同,知识抽取又可分为实体抽取、关系抽取以及属性抽取。图1显示了知识图谱的技术架构。

图片

图 1知识图谱的技术架构

Figure 1.Architecture of the Knowledge Graph

下载:全尺寸图片幻灯片

实体提取物被称为命名实体识别,其主要目标是从样本源中识别命名实体。实体是知识图谱最基本的元素。实体提取的完整性、准确性和召回率将直接影响知识图谱的质量[12]。文献[19]将实体提取的方法分为三种:(1)基于规则和词典的方法。通常需要为目标实体编写相应的规则,然后匹配原始语料,Quimbaya等[20]提出了一种基于词典的提取方法,并应用于电子健康记录。(2)基于统计机器学习的方法。主要利用数据对模型进行训练,然后利用训练好的模型识别实体,LiuK近邻等[21](K-nearest neighbors,KNN)随机场的算法和线性条件(Conditional random fields,CRF)结合模型识别实体。(3)面向开放域的抽取方法。主要针对海量网络数据,Jain与Pennacchiotti[22]提出了无监督开放域聚类算法,通过已知实体的语义特征识别命名实体。Zhang与Elhadad[23]提出一个无监督的实体抽取方法,利用术语、语料库统计信息以及浅层语法知识从生物医学中抽取实体。

通过实体提取获得的实体往往是离散和无关的。实体之间的语义链接可以通过关系提取来建立。关系抽取技术主要分为三种:(1)基于模板的关系抽取。使用模板通过手动或机器学习来提取物理关系。虽然精度高,针对性强,但也有不适合大规模数据集、召回率低、维护困难等缺点。(2)提取基于监督学习的关系。刘克斌等[24]根据本体知识库培训模型,将大量人工标记的数据发送到模型进行培训,并在开放数据集中提取关系,取得了很高的准确性。Sun与Han[25]提出名称FTK(Feature-enriched tree kernel)的模型,利用设计好的有效特征训练,计算关系实例相似度并通过支持向量机对关系进行分类。(3)抽取基于半监督或无监督学习的关系。使用最大期望基于少量人工标记数据或无标记数据(Expectation maximization)等算法的半监督关系抽取方法进行关系抽取。Sun与Grishman[26]提出名称LGCo-Testing主动学习系统,Fu与Grishman该系统进一步优化。Ji等[28]提出基于句子级注意力和实体描述的神经网络关系提取模型APCNNS。该模型实际上采用了多示例学习的策略,将同一关系的样例句组成样例包,关系分类是基于样例包的特点。实验结果表明,该模型能有效提高远程监督关系提取的准确性。采用多示例学习策略时,整个样例包可能含有大量噪音。针对这一问题,Feng等[29]提出了基于强化学习的关系分类模型CNN-RL(Convolutional neural networks and reinforcement learning),该模型包括两个重要器和关系分类器两个重要模块。实验结果表明,该模型比句子级卷积神经网络和样例包级关系分类模型取得了更好的效果。最近的工作是通过加强学习来处理句子级的噪音,这种学习被视为远程监督的标签。然而,很少有工作专注于直接校正噪声标签的标签级降噪。Sun等[30]提出了一种基于强化学习的标签去噪方法,用于远程监督关系提取。该模型由两个模块组成:抽取网络和策略网络。标签去噪的核心是在策略网络中设计一个获取潜在标签的策略,选择远程监控标签或从网络中提取预测标签。实验结果表明,强化学习对噪声标签的校正是有效的,提出的方法可以优于最新的关系提取系统。

属性提取的目标是通过从样本源中获取实体属性信息或属性值来完成实体信息。实体属性可以看作是属性值与实体之间的关系,因此可以通过关系提取的解决方案来获得。Wu与Weld[31]利用百科全书网站的半结构化数据对抽取模型进行培训,然后将抽取模型应用于非结构化数据中的抽取属性。Chang等[32]提出了基于张量分解的关系提取方法,也可以应用于属性提取,利用相应领域的实体类型知识更好地获得实体所缺乏的属性值。

2. 知识融合

通过提取和表达知识,初步获得了大量的正式知识。由于知识来源的不同,知识质量参差不齐,知识之间存在冲突或重叠。知识图谱的数量和质量有待提高。应用知识融合技术处理多源知识,一方面提高知识图谱质量,另一方面丰富知识库存。Zhao等[33]对最新最新的知识融合。传统的数据融合方法完成了早期的知识融合,Dong等[34]比较了传统的数据融合方法,选择了几种改进方法,并应用于知识融合。随着知识图谱的快速发展,也出现了专门的知识融合方法。以下体消歧、实体对齐、知识合并三个方面进行总结。

2.1 实体消歧

知识图谱中的每个实体都应该有一个明确的方向,即明确对应现实世界中存在的事物。由于数据来源复杂,初步构建的知识图谱中存在同名异义实体。例如,名为乔丹的实体可以指美国著名的篮球运动员、葡萄牙足球运动员和运动品牌。为确保每个实体都有明确的含义,采用实体消歧技术来区分同名实体。

利用现有知识库和知识图谱中隐含的信息来帮助语义消歧,Han与Zhao[35]提出使用维基百科(Wikipedia)利用背景知识作为背景知识Wikipedia语义知识,如社会关系,可以更准确地衡量实体之间的相似性,从而提高实体消歧的效果。Sen[36]利用知识库中存在的文本信息,提出了主题模型,学习共同实体组,实现实体集体消歧。Guo与Barbosa基于语义相似性的自然概念提出了两种集体消歧的方法。实体和文档的语义是通过在知识库上的知识子图中随机游走获得的概率分布来表示的,然后根据迭代的贪婪接近算法和学习排序的方法进行实体消歧。Zhu与Iglesias[38]提出了根据语义上下文相似性命名实体消歧的方法,并根据上下文与知识图中实体信息词之间的语义相似性进行实体消歧。还提出了Category2Vec模型也以嵌入向量的形式表示目录。主要思想是候选实体和上下文单词之间应该有语义联系,以帮助选择正确的实体。

在线百科全书由专家和网络用户编写,覆盖率高,结构信息丰富。Shen等[39]提出LINDEN(A framework for Linking named entities with knowledge baseviasemantic knowledge)同时使用模型Wikipedia和WordNet,实体消歧是基于文本相似性和主题一致性。Ratinov等[40]提出名称GLOW(Global and local approaches of Wikipedia)的系统,GLOW组合捕获实体指称和Wikipedia本地模型的相关性和选择准确歧义语境的方法。统计Wikipedia作为候选实体的排序依据,中实体的频率。Alokaili与Menai[41]提出使用不同的核函数来学习不同的集成学习算法,如支持向量机的集成学习来解决实体消歧问题,例如bagging、boosing、voting等。根据具体流程,将命名实体作为输入Wikipdia中的知识生成候选实体,构造特征向量,最后送入集成学习模块里完成实体消歧。

值得一提的是,Agarwal等[42]提出了利用时间的实体消歧思路,通过计算实体的时序特征来和输入的命名实体上下文的时序比较,即使命名实体的上下文提供的信息不充分也可以完成实体消歧任务。Dong[43]将基于相似度特征的随机森林模型和基于XGBoost、基于逻辑回归以及基于神经网络的方法进行比较,随机森林模型不仅拥有极高的准确率和召回率,且不像XGBoost和神经网络那样容易受到超参数的影响,在实体消歧任务中表现突出。

2.2   实体对齐

在现实生活中,一个事物对应着不止一个称呼,例如,“中华人民共和国”和“中国”都对应于同一个实体。在知识图谱中也同样存在着同义异名的实体,通过实体对齐,将这些实体指向同一客观事物。苏佳林等[44]提出基于决策树的自适应属性选择的实体对齐方法。通过联合学习将实体嵌入表示在一个向量空间后,由信息增益选出最优约束属性,训练实体对齐模型,计算最优约束属性相似度和实体语义相似度完成实体对齐。

Cheng等[45]提出了一个全自动的实体对齐框架,包括候选实体生成器、选择器和清理器,利用搜索引擎使用者的查询信息和查询后的点击记录,计算出实体间的相似度,完成实体对齐任务。Pantel等[46]提出了一个大规模相似性模型,在MapReduce框架下实施并且部署了超过2000亿从互联网上爬取得到的单词。通过计算5亿terms得到的相似度矩阵来进行实体对齐任务。Chakrabarti等[47]通过一个同义发现框架将实体相似性作为输入生成一个满足简单自然属性的同义词,提出了两种新的相似性度量法,并通过在bing系统上实际应用,发现可以有效识别同义词。Mudgal等[48]综述了基于深度学习的实体对齐方法,通过将这些方法分类,分别组合设计空间中属性嵌入、属性相似度表示、分类的各个方法,得到最具代表性的平滑倒词频(Smooth inverse frequency,SIF)、循环神经网络(Recurrent neural network,RNN)、Attention和Hybrid共4种解决方案。

针对基于嵌入表示的实体对齐,Sun等[49]提出自举的方法解决标记训练数据不足的问题。根据全局最优目标来标记可能的对齐,并在迭代中将其加入到训练数据中,不断训练嵌入表示模型。Guan等[50]发现基于监督学习的实体对齐方法,普遍在取得标签数据上需要花费大量时间,无监督学习方法的表现则很大程度地依赖于验证集上复杂的相似度衡量方式。Zhang等[51]从实体的多视角出发,利用实体的名称、实体间的关系、实体的属性的组合策略来学习实体的嵌入,并根据实体的表示来完成实体对齐任务。

2.3   知识合并

实体消歧和实体对齐更多的是关注知识图谱中的实体,从实体层面上通过各种方法来提升知识图谱的知识质量。知识合并则是从知识图谱整体层面上进行知识的融合,基于现存的知识库和知识图谱来扩大知识图谱的规模,丰富其中蕴含的知识。然而现存的知识库或者知识图谱都是各种机构或者组织根据自己的需求设计创建,其中的知识也存在着多样性和异构性,并且存在很多知识上的重复和错误,因而需要使用知识合并技术来解决这些问题[52]。知识图谱的合并需要解决2个层面的问题:数据层的合并和模式层的合并[53]。知识合并过程中可能出现的来自两个数据源的同一实体的属性值却不相同的现象,我们称这种知识合并过程中出现的现象为知识冲突。针对知识冲突问题,可以采用冲突检测与消解以及真值发现等技术进行消除,再将各个来源的知识关联合并为一个知识图谱。

冲突消解目前的研究方向是利用图谱自身存在的特征,Trisedya等[54]利用属性元组生成属性特征嵌入向量。使用成分函数来表示属性。将多个属性值都转化为单一向量,并将相似的属性映射为相似的向量表示。利用这些属性特征嵌入向量将两个图谱中的实体嵌入转化到同一个空间中,计算实体的相似性。Chen等[55]针对多语言知识图谱的合并,提出了利用实体描述的基于嵌入的半监督跨语言学习方法,在一个大规模数据集上通过迭代的方式联合训练一个多语言知识图谱嵌入模型和一个文字描述嵌入模型,训练模型完成图谱的合并。Cao等[56]提出多通道图神经网络模型,通过多个通道将两个知识图谱进行鲁棒编码。在每个通道中通过不同的关系加权方案来编码知识图谱,使用知识图谱补全和跨知识图谱注意力策略来分别修剪每个图谱中的独有实体,通过池化技术组合这些通道。

3.   知识推理与质量评估

知识推理技术可以提升知识图谱的完整性和准确性。传统的知识推理方法拥有极高的准确率,但无法适配大规模知识图谱。针对知识图谱数据量大、关系复杂的特点,提出了面向大规模知识图谱的知识推理方法,并归纳为以下4类[14, 57]:(1)基于图结构和统计规则挖掘的推理;(2)基于知识图谱表示学习的推理;(3)基于神经网络的推理;(4)混合推理。

3.1   基于图结构和统计规则挖掘的推理

受传统推理地启发,基于知识图谱的图结构以及挖掘蕴藏在知识图谱中的规则进行推理的方法得以提出,并在知识推理任务上取得一定效果。Lao与Cohen[58]提出了路径排序算法(Path ranking algorithm,PRA),将实体间的路径作为特征,通过随机行走算法来计算实体间是否存在潜在的关系。Wang等[59]设计了耦合路径排序算法(Coupled path ranking algorithm,CPRA),并提出一种全新的逐次聚合的策略,通过这一策略使得具有强相关度的关系聚合在一起。使用多任务学习策略预测聚合后的关系。Xiong等[60]针对多跳关系路径的学习提出使用强化学习的框架,设计了一个具有连续基于知识图谱嵌入状态的策略Agent,通过Agent在知识图谱的向量空间中寻找最有潜力的关系加入路径完成推理。

Cohen[61]针对如何将知识整合到梯度学习的系统的问题,描述了一个概率演绎的数据库Tensorlog,通过可微分的过程来进行推理。Yang等[62]研究了基于学习一阶概率逻辑规则进行知识库推理的问题。受到Tensorlog的启发,提出了名为神经逻辑规划的框架,将一阶逻辑规则的参数和结构整合到一个端到端的可微分模型中。设计了一个带Attention机制和存储功能的神经控制系统来学习组合那些用于完成推理的规则。Kampffmeyer等[63]提出深度图传播模型,在利用图结构的便利的同时解决知识过于稀疏的问题。

3.2   基于知识图谱表示学习的推理

表示模型将知识图谱中相应的实体和关系用向量、矩阵或者张量的形式表示,表示后进行运算完成知识推理任务。因其简单高效且适应于大规模知识图谱推理的特点而不断发展。

3.2.1   基于距离的推理模型

Bordes等[64]提出了TransE模型,将所有的实体和关系表示为同一个空间下的向量,假设事实元组中头实体向量和关系向量之和应该约等于尾实体的向量。通过随机替换事实元组中的某一项来构建负例。计算元组中头向量和关系向量的和向量与尾向量的距离作为候选实体的得分。尽管TransE模型简单且有效,但其仍然具有许多缺陷,因而衍生出很多基于该模型的方法。Wang等[65]提出TransH模型,每一个关系都有一个特定的超平面,头实体向量和尾实体向量投影至特定的关系超平面计算事实元组得分。Lin等[66]提出TransR模型,针对特定关系引入了空间。Xiao等[67]提出了ManifoldE模型,引入了特定关系参数。尾实体向量有效范围是以头实体向量和关系实体向量的和向量为中心,以特定关系参数为半径的一个超球面。Feng等[68]提出的TransF模型和ManifoldE模型有着相似的思路,放宽了TransE中对实体关系向量的要求,仅需要头实体向量位于尾实体向量和负的关系向量的和向量的方向上,同时尾实体向量也位于头实体向量和关系向量的和向量的方向上。

Kzaemi与Poole[69]提出SimplE模型,允许实体拥有两个独立学习的向量表示,而关系由一个向量表示。Ebisu与Ichise[70]提出了TorusE嵌入模型,将TransE的思想应用在李群(Lie group)理论中的圆环面上,即在圆环面上计算表示向量间的距离来取得元组得分。Xu与Li[71]提出DihEdral模型,针对性地增强了知识推理的可解释性,通过离散值将关系建模成组的元素,显著地缩小了解空间。Sun等[72]提出RotatE模型,将关系看作是从头实体向量向尾实体向量的旋转,元组得分通过计算旋转后的头实体向量和尾实体向量的距离得到Zhang等[73]引入超复数的概念,提出了QuatE模型,通过一个拥有三个虚部的超复数来表示知识图谱中的实体和关系。与RotatE想法类似,QuatE模型将关系看作超复数平面下头实体到尾实体的旋转。

3.2.2   基于语义匹配的推理模型

Nickel等[74]提出的RESCAL模型将实体和向量联系起来,从而捕捉其中隐含的语义,潜在因子间的相互作用建模后得到关系表示矩阵,计算实体向量与关系矩阵的乘积来得到元组得分。Yang等[75]提出DistMult模型,每一个关系都表示为向量,再将向量转化为对角矩阵,通过计算头尾实体向量与关系对角矩阵的乘积得到元组的得分。Trouillon等[76]提出Complex模型,引入复数嵌入针对不对称关系建模。在Complex模型中,实体和关系都由复平面中的向量表示,计算头实体向量和根据关系向量建立的对角矩阵以及尾实体向量的共轭这三者的乘积,结果的实部作为元组的得分。Liu等[77]提出ANALOGY模型,利用实体和关系的类比性质来建模,实体由嵌入空间中的向量表示,将关系矩阵处理得到一系列稀疏的对角矩阵,减少了关系矩阵的参数。将头尾实体向量与关系矩阵的积作为元组得分。

Balazevic等[78]提出了基于KKT(Karush Kuhn Tucker)分解的tuckER模型,将所有实体和关系分别表示为行向量嵌入矩阵,从这两个矩阵中取出头尾实体向量和关系向量,将这些向量和一个核心张量相乘得到元组的得分。针对大部分现存的基于知识图谱嵌入的模型,Kristiadi等[79]研究了如何将文字信息整合到现存的表示模型中去,提出了LiteralE模型,在实体的嵌入表示上加入文字信息,用实体表示和文字信息的联合表示取代原本模型的单独的实体表示。Zhang等[80]提出了CrossE模型,基于向量表示实体和关系,生成多个元组的特定嵌入即交互嵌入。由交互表示和尾实体的嵌入表示的匹配程度给出元组得分。

基于表示学习的知识推理模型的比较如表1所示。

表  1  部分基于表示学习的知识推理模型

Table  1.  Some knowledge reasoning models based on representation learning

Method Scoring function The entity representations The relation representation
TransE −∥h+t−r∥1/2−‖h+t−r‖1/2 h,t∈Rdh,t∈Rd r∈Rdr∈Rd
ManifoldE −(∥h+t−r∥22−θ2r)2−(‖h+t−r‖22−θr2)2 h,t∈Rdh,t∈Rd r∈Rdr∈Rd
SimplE 12(〈hei,vr,tej〉+〈hej,vr−1,tei〉)12(〈hei,vr,tej〉+〈hej,vr−1,tei〉) he,te∈Rdhe,te∈Rd vr∈Rdvr∈Rd
RotatE ∥h∘r−t∥‖h∘r−t‖ h,t∈Cdh,t∈Cd r∈Cdr∈Cd
QuatE h⊗r|r|⋅th⊗r|r|⋅t h,t∈Hdh,t∈Hd r∈Hdr∈Hd
RESCAL hTMrthTMrt h,t∈Rdh,t∈Rd Mr∈Rd×dMr∈Rd×d
DistMult hTdiag(r)thTdiag(r)t h,t∈Rdh,t∈Rd r∈Rdr∈Rd
ComplEx Re(hTdiag(r)t¯)Re(hTdiag(r)t¯) h,t∈Cdh,t∈Cd r∈Cdr∈Cd
ANALOGY hTMrthTMrt h,t∈Rdh,t∈Rd Mr∈Rd×dMr∈Rd×d
CrossE σ(tanh(cr∘h+cr∘h∘r+b)tT)σ(tanh(cr∘h+cr∘h∘r+b)tT) h,t∈Rdh,t∈Rd r∈Rdr∈Rd

下载: 导出CSV 

| 显示表格

3.3   基于神经网络的推理

基于神经网络的推理方法将知识图谱中事实元组表示为向量形式送入神经网络中,通过训练神经网络不断提高事实元组的得分,最终通过输出得分选择候选实体完成推理。Socher等[81]提出适应于实体间关系推理的神经张量网络(Neural tensor networks,NTN)模型,用双线性张量层取代神经网络层,实体通过连续的词向量平均表示进而提升模型的表现。Neelakantan等[82]使用循环神经网络来建模知识图谱中的分布式语义的多跳路径。Das等[83]主要是将符号逻辑推理中丰富的多步推理与神经网络的泛化能力相结合。通过学习实体、关系和实体的种类来联合推理,并使用神经注意力建模来整合多跳路径。在单层RNN中分享参数来表示所有关系的逻辑组成。Graves等[84]建立了可微神经计算机模型,将神经网络和记忆系统结合起来,将通过样本学习到的知识储存起来并进行快速知识推理。

Dettmers等[85]针对知识图谱中大规模与过拟合的问题,设计了参数简洁且计算高效的二维卷积神经网络(Convolutional 2D,ConvE)模型。Vashishth等[86]基于特征排列、新的特征变形以及循环卷积提出InteractE模型。InteractE模型通过使用多种排列输入,更简单的特征变形方法以及循环卷积来取得比ConvE更显著的效果。

3.4   混合推理

对于上面的几类知识推理的方法,各有其优势与缺点,于是考虑结合多种方法的优势来提升推理效果,进而提出了混合推理方法。Guo等[87]提出学习规则增强关系来补全知识图谱的方法,使用规则来进一步改善传统关系学习得到的推理结果,提升知识推理的准确性。Lu等[88]提出了基于强化学习建模的逻辑概率的知识表示和推理模型,同时在已知的知识和由强化学习整合的经验上进行推理来训练强化学习的Agent。Xie等[89]提出一种利用实体描述的知识表示学习的方法,使用了连续词袋模型和深度卷积模型来编码实体的描述语义。之后进一步学习通过三元组和三元组中实体的描述来学习表示知识。并利用学习到的知识来完成知识推理任务。Wang[90]提出规则嵌入神经网络(The rule-embedded neural network,ReNN)。ReNN基于局部的推理检测局部模式,由局部模式领域知识的规则来生成规则调制映射。针对规则引起的优化问题,采用两阶段优化策略。引入规则解决了传统神经网络必须受限于数据集的问题,从而提升了推理的准确率。

Zhang等[91]提出了一个名为IterE的迭代学习嵌入和规则的框架,目标是同时学习实体嵌入表示和规则,并利用它们各自的优势来弥补对方的不足。Nie与Sun[92]组合了隐形特征和图特征的优势提出了一个名为文本强化型知识图谱嵌入(Text-enhanced knowledge graph embedding,TKGE)的组合模型,通过实体、关系和文本来提升推理的表现。Guan等[93]基于一个常识图的常识概念信息提出了一个常识伴随的知识图谱嵌入(Knowledge graph embedding with concepts,KEC)模型,将来自于知识图谱的事实元组通过常识概念信息修正,从而使得模型不仅仅关注实体间的关联性还有实体存在的常识概念。因此这个模型具有明确的语义性。

4类知识推理方法对比如表2所示。

表  2  4类知识推理方法对比

Table  2.  Comparisons of 4 kinds of knowledge reasoning methods

Reasoning methods Advantage Disadvantage Typical model
Knowledge reasoning based on graph structure and statistical rule mining The advantages of graph structure and rules can significantly improve the accuracy of knowledge reasoning Large-scale knowledge graphs have complex graph structures and rules are not easy to obtain; noise rules can mislead knowledge reasoning PRA AMIE TensoLog
Knowledge reasoning based on representation learning Simple and efficient, suitable for large-scale knowledge graph Does not consider the deeper information in the knowledge graph, which limits its accuracy of reasoning RESCAL TransE
Knowledge reasoning based on the neural network Outstanding learning ability and reasoning ability High complexity, huge number of parameters, and poor interpretability NTN
Knowledge reasoning based on hybrid methods Combines the advantages of several inference methods, so its performance is excellent Most methods are just shallow fusion, not taking full advantage of their respective methods TKGE

下载: 导出CSV 

| 显示表格

3.5   质量评估

通过质量评估技术来对新知识进行筛选,是构建知识图谱中必不可少的环节。Mendes等[94]提出了Sieve,用于简化生成高质量数据的任务,并整合进了链接数据整合框架(Linked data integration framework,LDIF)中,包括一个质量评估模型和一个数据融合模型。质量评估主要利用用户选择的质量因子,通过用户配置的得分函数生成质量得分。数据融合使用质量得分来处理用户设置的冲突消解任务。Fader等[95]基于来自网络或Wikipedia的1000个句子中人工标注的实例来训练ReVerb系统的置信函数,通过一个逻辑回归分类器来评估每一个通过ReVerb系统抽取得到的实例的置信度。Google的Knowledge vault项目[96],通过统计全球网络中抽取数据的频率作为评估信息可信度的依据,并通过已有知识库中的知识来修正可信度,这一方法有效降低了评估数据结果的不确定性,从而提升了知识的质量水平。Tan等[97]提出了一个名为CQUAL(Contribution quality predictor)的方法来自动预测用户提交至知识库的知识的质量,主要依据提交用户的领域、提交历史、以及历史准确率等数据。实验表明这一方法拥有很高的准确率和召回率。

4.   知识图谱应用

知识图谱技术提出之后,因其具有的语义处理和开放互联的能力,以及其简洁灵活的表达方式等优势,受到了广泛关注。知识图谱技术的发展得益于自然语言处理、互联网等技术的发展,而不断完善的知识图谱技术也可以应用到自然语言处理、智能问答系统、智能推荐系统等技术中,进一步促进这些技术的发展,而这些技术以及知识图谱技术又可以进一步应用在诸如医疗、金融、电商等垂直行业或领域内,帮助促进行业发展[16-17]。

构建完备的知识图谱可以帮助自然语言理解技术发展。针对文本分类问题,Wang等[98]首先利用知识库中的知识将短文本概念化,获得短文本的嵌入表示后送入卷积神经网络中进行分类。Lagon等[99]提出了知识图谱语言模型,一种拥有从知识图谱中选择和复制知识的神经语言模型。

智能问答系统可以依靠知识图谱中的知识来回答查询。Bauer等[100]利用关系路径从常识网络中获取背景常识知识,之后利用多注意力机制完成多跳推理并通过一个指针生成译码器来合成问题的答案。朱宗奎等[101]针对中文知识图谱问答系统,将BERT(Bidirectional encoder representations from transformers)模型和双向长短期记忆网络结合,之后通过条件随机场模型来预测字符标签,从而识别出问题中的实体并链接到知识网络中,最后完成答案的搜索。

知识图谱可作为外部信息整合至推荐系统中,使得推荐系统获得推理能力。通过利用知识图谱中诸如实体、关系的信息,许多研究进一步基于嵌入正则化来提升推荐效果。Wang等[102]将图注意网络应用于实体–关系和用户–物品图的协作知识图谱上,提出了名为知识图谱注意力网络的模型,在端到端的模式下通过嵌入传播和基于注意的聚合对建模知识图谱中的高阶连通性建模。

在垂直行业或领域内,知识图谱已开始应用。在医疗领域,通过提供更加精确规范的行业数据以及更加丰富的表达,帮助非行业相关人员获取医疗知识的同时也帮助行业人员更直观快捷获取所需医疗知识。在金融领域,借助知识图谱检测数据的不一致性,来识别潜在的欺诈风险。同时,利用知识图谱技术分析招股书、年报、公司公告等金融报告,建立公司和人物的关系,在此基础上做更进一步的研究和更优的决策。在电商领域,阿里巴巴已经通过应用知识图谱,建立商品间的关联信息,为用户提供更全面的商品信息和更智能化的推荐,从而提升用户的购物服务与体验。同时,知识图谱也在教育、科研、军事等领域中广泛应用。

5.   知识图谱在知识融合、推理与应用中的挑战与展望

自谷歌提出知识图谱概念至今,这项技术一直受到广泛的关注。随着深度学习、自然语言处理等相关领域的发展,知识图谱的研究热度不断增加。不可忽略的是,知识图谱发展至今,知识融合、知识推理等知识图谱关键技术以及知识图谱的应用仍面临许多挑战。

知识融合技术是知识图谱的关键技术之一。知识融合主要任务是将新获得的知识融入知识图谱中。保证知识图谱知识准确率的前提下高效地引入新知识,是知识融合的关键。存在的挑战如下:(1)为了保证融合后知识图谱的质量,首先要提升知识评估的能力。现存的知识评估方法大都是针对静态知识进行评估,缺少动态知识评估手段是目前知识评估面临的一大挑战。(2)要解决由自然语言的特殊性引发的知识冗余和缺失问题。当知识图谱不能准确将具有同义异名的实体对齐或将同名异义的实体消歧就会导致知识图谱中出现知识冗余或缺失。(3)目前,因自然语言的复杂性,在单一语言的背景下实体对齐和实体消歧的准确率仍然有待提高,针对多语言实体对齐或消歧更是一大挑战。

知识推理技术也是知识图谱的关键技术之一,通过已知的知识推理获得新知识来完善知识图谱。存在的挑战如下:(1)知识推理的主要对象多是二元关系,通常处理多元关系的方法是将其拆分为二元关系进行推理,然而将多元关系拆分会损失结构信息,如何尽可能完整地利用多元关系中复杂的隐含信息推理是知识推理的一大挑战。(2)现有的知识推理往往都是基于大量高质量的数据集训练推理模型,在相应的测试集中测试优化模型来完成推理。除了数据集获取成本高的问题,通过数据集训练的模型的泛化能力也极为有限,而现实世界中人类通过少量样本学习即可完成推理。如何模仿人脑机制实现小样本或零样本学习知识推理也是一大挑战。(3)知识图谱中知识的有效性往往受到时间空间等动态因素约束,如何合理利用知识的动态约束信息完成动态推理也是知识推理的一大挑战。

知识的表达、存储与查询将是贯穿知识图谱应用始终的问题。存在的挑战如下:(1)目前,应用在行业领域的知识图谱因为很大程度上依赖人工的参与构建,成本高昂。大多数研究工作主要针对知识图谱的半自动构建[103],如何自动构建高质量知识图谱是知识图谱应用所面临的一大挑战。(2)知识拥有指导功能,利用知识图谱中的知识引导机器学习中的数据学习,从而降低数据依赖打破数据红利损耗殆尽后的僵局,是知识图谱应用面临的一大挑战。(3)利用人类易懂的符号化知识图谱,解释各类机器学习特别是深度学习的过程,补足其在可解释性方面的短板,也是知识图谱应用面临的一大挑战。(4)未来,能否应用知识图谱中的知识,作为已知的经验,通过训练构建人工智能层面上的心智模型,同样是知识图谱应用的一大挑战。

知识图谱意在模仿人类的认知方式,构建属于机器的知识库,是实现机器认知智能的关键技术,也是网络大数据时代中利用大数据的关键技术。本文从知识图谱构建过程中的关键技术出发,简略研究了知识的抽取与表示,重点分析了知识融合和知识推理技术的研究成果。然而众多研究成果实用性不强,知识图谱虽然已经出现了诸如Magi[104]这样的理论实践者,但距离知识图谱成为机器大脑知识库、实现机器认知智能的终极目标还有不小的距离。未来的研究中,基于网络数据自动构建的知识图谱将成为主流。因而需要进一步提高知识抽取、知识融合和知识推理技术的准确性,确保获取知识的质量;同时提高这些技术的效率,从而保证面对大规模数据量级时的实用性。同时,知识图谱虽然已经在公安情报分析、反金融欺诈等实际问题中开始应用,但是其具有的巨大潜力仍有待挖掘,如何将知识图谱技术应用在生活中的各个方面,也将是未来的主要研究方向。除此之外,目前存在着的大量知识图谱,大多有着结构或者语言上的差异,这种差异增大了知识图谱应用的难度,制定行业规范、整合各个知识图谱、构建通用知识图谱,也是未来知识图谱研究的方向之一。

关注微信公众号:人工智能技术与咨询。了解更多咨询!

标签: kec连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台