资讯详情

知识图谱入门:知识图谱的技术流程

知识图谱的技术流程

用于表达更规范的知识图谱数据。

  • 一方面,知识图谱采用更标准化的概念模型、本体术语和语法格式来建模和描述数据;
  • 另一方面,知识地图通过语义链接增强了数据之间的相关性。这种表达标准、相关性强的数据可以在改进搜索、问答体验、辅助决策分析和支持推理等方面发挥重要作用。

涉及知识图谱方法论多方面。一般流程如下:

  • 首先确定知识表示模型,然后根据数据源选择不同的知识获取方法导入知识
  • 然后利用知识推理、知识融合、知识挖掘等技术提高构建的知识图谱的质量
  • 最后,根据场景需要设计语义搜索、问答交互、图谱可视化分析等不同的知识访问和呈现方法。

这些技术流程的核心技术要素总结如下。

1.知识来源

从文本、结构化数据库、多媒体数据、传感器数据和人工众包等多种来源获取知识图谱数据。

每个数据源的知识化都需要结合各种技术手段。例如,对于,各种自然语言处理技术,如实体识别、实体链接、关系语言处理技术,从文本中提取知识。

例如,各种关系数据库也是最常用的数据源之一。现有的结构化数据库通常不能直接用作知识地图,而是需要将结构化数据定义为本体模型之间的语义映射。然后通过编写语义翻译工具将结构化数据转换为知识地图。此外,还需要综合使用提高数据标准化水平,增强数据之间的关联。

它也被用来语义化传感器生成的数据。这包括抽象物联网设备,定义符合语义标准的数据接口;语义包装传感数据,增加上下文语义描述。

是获取高质量知识图谱的重要手段。 都是典型的知识众包技术手段。此外,还可以开发文本、图像等媒体数据的语义标记工具,帮助人工获取知识。

2.知识表达与 Schema 工程

它是指用计算机符号来描述和表达人脑中的知识,以支持机器模拟人的思想进行推理的方法和技术。

知识表示决定了图谱构建的输出目标,即知识图谱的语义描述框架 ()、 与本体()、

基本描述框架定义知识图谱的基本数据模型()和逻辑结构(),如:

  • 国际万维网联盟()的 RDF。
  • 与本体定义知识图谱的类集、属性集、关系集和词汇集。交换语法定义知识实际存在的物理格式,如 等等。实名及 ID 系统定义实体的命名原则和唯一的标识规范。

什么是 RDF?

w3school解释如下:

RDF 指资源描述框架(Resource Description Framework) RDF 用于描述 Web 上资源框架 RDF 为数据提供模型和语法,使独立的群体能够交换和使用它 RDF 计算机可以阅读和理解 RDF 设计的目的不是向人们展示 RDF 使用 XML 编写 RDF 是 W3C 语义网络活动的一部分 RDF 是一个 W3C 推荐标准

根据不同的知识类型,知识图谱包括单词()、实体()、关系()、事件()、术语体系()、规则()等。

  • 词一级知识以词与词的关系为中心,定义 等。
  • 实体一级知识以实体为基础以实体之间的关系为中心,描述实体的术语体系。
  • 事件是一种复合实体:

W3C 的 RDF 把三元组(Triple)作为一种基本的数据模型,其基本逻辑结构包含主语()、谓词()、宾语()三部分。虽然不同知识库的描述框架不同,但本质上包含几个要素。

3.知识抽取

根据任务可分为概念提取、实体识别、关系提取、事件提取和规则提取等。

传统专家系统时代的知识主要依靠专家的手工输入,难以扩大规模。现代知识地图的构建通常依赖于现有的结构化数据资源,形成基本的数据集,然后依赖于,通过人工众包,进一步扩展知识图谱,进一步提高知识图谱的质量。

4.知识融合

从第三方知识库产品或现有库产品或现有结构化数据中获得。

当多个知识图集成或将外部关系数据库集成到本体知识库时,需要处理两个问题:

  • 新获得的本体通过模式层的融合融入现有的本体库和新旧本体的融合;
  • 数据层的集成,包括实体的指称、属性、关系和类别,主要问题是如何避免实例和关系冲突,造成不必要的冗余。

由于知识库中的一些物理含义相同但标识符不同,因此需要合并这些物理。

此外,还需要验证和评估新的实体和关系,以确保知识地图内容的一致性和准确性。通常的方法是在评估过程中为新添加的知识提供可信度,从而过滤和整合知识。

的任务包括,即判断知识库中的同名实体是否代表不同的含义以及知识库中是否存在其他命名实体表示相同的含义。

  • 实体消歧是专门用来解决同名实体产生歧义的问题的,通常采用聚类法。关键问题是如何定义实体对象与指称项之间的相似性。一些最新的工作采用知识图嵌入法进行实体对齐,并引入人机合作,以提高实体对齐的质量。
  • 本体是针对特定领域的 Schema定义、概念模型和公理定义的目的是弥合间隙使沟通达成共识。这种共识通常是通过一个重复的过程来实现的,每一次迭代都是共识的修改。因此,本体对齐通常会导致共识模式的演变和变化,本体对齐的主要问题之一也可以转化为如何管理它。

5.知识图谱补全与推理

常用的知识图谱补充方法包括:

  • 基于这种推理主要针对TBox,即概念层进行推理,也可以用来对实体级的关系进行补全。
  • 例如,基于随机行走获取路径特征的方法PRA基于子图结构的算法、算法SFE基于层次随机游走模型的方法 PRA算法。该算法的共同特征是通过两个实体节点之间的路径和节点周围图的结构提取特征,并通过随机行走等算法降低特征抽取的复杂度,然后叠加线性的学习模型进行关系的预测。此类算法依赖于图结构和路径的丰富程度
  • 更为常见的补全实现是基于表示学习和知识图谱嵌入的链接预测,简单的如前面介绍最基本的翻译模型、组合模型和神经元模型等。这类简单的嵌入模型一般只能实现单步的推理。对于更为复杂的模型,如向量空间中引入随机游走模型的方法,在同一个向量空间中将路径与实体和关系一起表示出来再进行补全的模型
  • 文本信息也被用来辅助实现知识图谱的补全[。例如,Jointly(w)、ointly(z)、 DKRL、TEKE、SSP 等方法将文本中的实体和结构化图谱中的实体对齐,然后利用双方的语义信息辅助实现关系预测或抽取。这类模型一般包含三个部分:三元组解码器、文本解码器和联合解码器。三元组解码器将知识图谱中的实体和关系转化为低维向量;文本解码器则要从文本语料库中学习实体(词)的向量表示;联合解码器的目的是要保证实体、关系和词的嵌入向量位于相同的空间中,并且集成实体向量和词向量。

6、知识检索与知识分析

基于知识图谱的知识检索的实现形式主要包括

  • 传统搜索引擎依靠网页之间的超链接实现网页的搜索,
  • 而语义搜索直接对事物进行搜索,如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、loT设备等各种信息资源。而知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述,使得搜索引擎可以直接对事物进行索引和搜索。

知识图谱和语义技术也被用来辅助做数据分析与决策。例如,大数据公司 Plantir基于本体融合和集成多种来源的数据,通过知识图谱和语义技术增强数据之间的关联,使得用户可以用更加直观的图谱方式对数据进行关联挖掘与分析。

近年来,描述性数据分析(Declarative Data Analysis)越来越受到重视。描述性数据分析是指依赖数据本身的语义描述实现数据分析的方法。

不同于计算性数据分析主要以建立各种数据分析模型,如深度神经网络,描述性数据分析突出预先抽取数据的语义,建立数据之间的逻辑,并依靠逻辑推理的方法(如)实现数据分析。

参考资料: 知识图谱:方法、实践与应用:王昊奋 漆桂林等主编

标签: ssp1传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台