TAN L,E H H, KUANG Z M, et al . Key technologies and research progress of medical knowledge graph construction[J]. Big Data Research, 2021, 7(4): 80-104.
首先应该尽可能减少在本体构建过程中的人为干预。实现本体建设过程的完全自动化是不现实的。如何减少人为干预是医学本体建设的难点和热点。2018年,Mazen A其他人提出了链接开放数据项目授权的生物医学本体自动生成框架(linked open data approach for automatic biomedical ontology generation,LOD-ABOG)方法。与现有框架相比,参考文献[3]的评估结果显示,大多数本体生成任务的结果都有所改善。参考文献提出LOD-ABOG框架显示,现有的LOD源和技术是一个很有前途的解决方案,可以在更大程度上实现生物医学本体生成和关系提取过程的自动化。另外,与现有的框架在本体开发过程中需要领域专家的参与不同,该参考文献提出的方法只要求领域专家在本体构建周期结束时参与到本体的改进中。
此外,由于医学信息的特殊性,医学信息的匿名处理也是本体建设过程中的一个难点。2017年,Polsley S其他人提出了可识别和映射到本体论术语的受保护健康信息(protected health information, PHI)临床专家用数百份医学文献来评价这种方法,F1分数达98.8%的语义信息保留在后续处理中有一定的前景。然而,该方法仍有很大的局限性,需要不断优化。
为了解决医学名词实体较长、识别边界困难的问题,2020年,Tan C Q等出边界感知的神经网络模型来预测实体的类别信息。该模型可以首先定位实体的位置, 然后在相应的位置范围内预测物理类型。公开嵌套NER在数据集中,该模型取得了超越以往方法的效果,并在预测上取得了更快的速度。
另外,大多数NER系统只处理平面实体,忽略内部嵌套实体,导致底层文本中的细粒度语义信息无法捕获。2018年,为了解决这个问题Ju M Z等人提出了一种新的神经模,通过动态叠加平面NER层来识别嵌套的实体。模型将长短时记忆(long short term memory,LSTM)层的输出合并到当前的平面NER层中,为检测到的实体构建新的表示,并将它们提供给下一个平面NER层。模型动态地堆加平面NER层,直到没有提取任何外部实体。该模型针对特定数据集(具有多种类别和嵌套的实体)具有较好的实验效果。
对于医学实体中常见的一词多义现象,2019年Pham T H等人在细粒度NER任务中进行了多任务学习和语境化单词表征的有效性研究,并研究了多任务序列标记的不同参数共享方案、神经语言模型学习和不同单词表示设置下的学习。最终得到的最佳模型不需要任何额外的人工操作来创建数据和设计特征,F1分数达到83.35%。Luo Y等人提出了一个增加了上下文表示层次的模型:句子级表示和文档级表示。在句子级,考虑到单个句子中单词的不同贡献,通过标签嵌入注意机制来增强从独立的双向长短时记忆(bidirectional long short term memory,BiLSTM)学习到的句子表征。在文档级,采用键值存储网络记录对上下文信息相似度敏感的单个单词的文档感知信息。在基准测试的实验结果数据集(CoNLL-2003和Ontonnotes 5.0英语数据集,CoNLL-2002西班牙语数据集)上获得了最先进的结果。
为了自动构建大规模的语料库,2019年Li Y等人提出了一种全新的轻量级神经网络框架来解决远程监督关系抽取问题,以弥补以往选择的不足,使用《纽约时报》(New York Times,NYT)数据集进行实验,结果表明该方法在AUC和Top-n精度指标方面都达到了较先进的性能。2020年He Z Q等人设计了一个新的状态表示形式,它考虑了句子嵌入、关系嵌入以及所选的正向实例的嵌入,该方法解决了远程监督方法中的错误标签问题,同时提升了词袋水平的关系提取效果。Chen D Y等人提出了通过多代理强化学习模型来重新标记噪声训练数据,并共同提取实体和关系的新方法。他们在两个真实的数据集上对该方法进行了评估,结果证明,该方法可以显著提高提取器的性能,并实现有效的学习。
针对医学实体间普遍存在重叠关系这一问题,2019年Zeng D J等人重新研究了基于复制机制的关系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取实体和关系的多任务学习复制模型(copy mechanism for multi-task learning,CopyMTL)。该模型利用多任务的学习框架来识别多词实体,通过提高实体识别精度来提升关系抽取的效果,从而达到了较理想的效果。2020年Nayak T等人提出了使用编码器-解码器体系结构共同提取实体和关系的方法。该方法使用一种用于关系元组的表示方案,使解码器能够像机器翻译模型那样一次生成一个单词,并且仍然可以找到句子中存在的所有元组,它们具有不同长度的完整实体名称,并且具有重叠的实体。对NYT数据集进行的实验表明,该方法明显优于所有以前的模型。
针对医学关系跨度大的问题,2020年Nan G S等人提出潜在结构优化(latent structure refinement,LSR)模型,以端到端的方式构造一个文档级图谱来推理句间关系,通过迭代优化策略,模型能够动态构建潜在结构,以改善整个文档中的信息聚合。该模型在生物医学领域的两个文档级关系抽取数据集上取得了较好的效果。
2020年,E H H等人尝试将关系和属性三元组结合起来进行实体对齐。采用参数共享联合方法和基于翻译的知识嵌入方法将它们联合嵌入。实验结果表明,该方法对实体对齐任务有明显的改进。Munne R F等人提出了一种基于嵌入的实体对齐方法。针对实体对齐任务,提出了一种汇总与属性嵌入的联合方法。当实体具有较少的属性或关系结构,无法捕获实体的有意义的表示时,实体摘要嵌入会很有用。他们在真实世界的数据集上进行了实验,结果表明,所提方法显著优于当时最先进的实体对齐模型。
2020年,Chen M H等人提出了一种新的模型JEANS,在一个共享的嵌入方案中联合表示多语种的知识图谱和文本语料库,并试图通过文本附带的监督信号来改善实体对齐效果。在基准数据集上的实验结果表明,JEANS在伴随监督的实体对齐方面有很好的改善,并且显著地优于只提供知识图谱内部信息的最新方法。KANG S Z等人利用本体提出了一种基于TransC的嵌入模型。该模型首先采用TransC和参数共享模型,将知识图谱中的所有实体和关系映射到一个基于对齐实体集的共享低维语义空间,然后迭代地使用重新初始化和软对齐策略来执行实体对齐。实验结果表明,与基准算法相比,该模型能有效地融合本体信息,取得了较好的效果。
针对邻域结构的非同构性,Sun Z Q等人提出了一种新的知识图谱对齐网络AliNet,旨在以端到端的方式减轻邻域结构的非同构性。该方法采用一种注意机制来突出有用的远距离邻居,并减少噪声,然后使用门控机制控制直接邻域信息和远程邻域信息的聚合。他们进一步建议使用关系损失来重新定义实体表示,并对5个实体对准数据集进行了详细的研究和分析,证明了AliNet的有效性。
针对知识图谱之间的结构异构性,Wu Y T等人采用一种新的图谱采样策略来识别面向实体对齐的信息最丰富的邻居,利用基于交叉图谱注意力的匹配机制,联合比较两个实体的区分子图,以实现稳健的实体对齐。在3个实体比对数据集上进行的大量实验表明,该方法可以在更困难的情况下很好地估计邻域相似度,显著优于12种现有方法。
2019年,Zhang F J等人将两个有上亿级别节点的网络——AMiner和微软学术进行了对齐,这项研究综合利用了LSTM、灰色神经网络(gray neural network,GNN)、哈希等技术,能够高效处理多种类型的节点以及不同类型的信息,并且使对齐效果达到了可以应用的级别(总体F1分数为96.81%)。
2017年,Lou Y X等人提出了一种基于转换的联合疾病实体识别与规范化模型,将输出构造过程转化为一个渐进的状态转换过程,允许使用非局部特征。实验表明,与其他方法分开执行任务相比,联合框架实现了更高的性能。与其他先进的方法相比,该方法更具优势。
2019年,Zhao S D等人提出了一个新的具有显式反馈策略的深层神经多任务学习框架,用于联合实体识别和实体规范化建模。该方法利用多任务学习对两个任务进行一般表示,在保持任务之间相互支持的同时,成功地将跨体系结构的任务转换为并行的多任务设置。实验结果表明,在两个公开的医学文献数据集上,该方法比当时最先进的方法表现得更好。
2020年,Luo Z H等人开发了pyMeSHSim软件包,这是一个用于生物医学文本挖掘的集成、轻量级和数据丰富的Python包。作为第一个一站式医学主题词(medical subject heading,MeSH)工具包,它集成了生物NER、规范化和比较功能。pyMeSHSim嵌入了一个自制的数据集,其中包含主标题(main heading,MH)、补充概念记录(supplementary concept record,SCR)及其在MeSH中的关系。基于该数据集,pyMeSHSim实现了4种基于信息内容的算法和一种基于图谱的算法,可用于度量两个网格术语之间的语义相似度。结果表明,使用pyMeSHSim识别的网络术语和以前手工识别的网络术语的语义相似度高达0.89~0.99。PyMeSHSim有望在生物信息学、计算生物学和生物医学研究中作为一种强大的工具得到广泛的应用。
2018年,Gorrell G等人提出了一个新的系统Bio-YODIE。Bio-YODIE有两个主要的组成部分,首先,资源准备步骤将运行时所需的UMLS和其他信息资源处理为高效的形式,尽可能多地提前完成工作,以尽量减少运行时的处理;其次,流程本身对文档进行了注释,这些文档包括UMLS概念唯一标识符以及来自UMLS的其他相关信息。基于文本工程的通用结构(general architecture for text engineering,GATE),YODIE最初是一个通用的域系统,引用了DBpedia。BioYODIE是该系统的生物医学版本,它继承了一般领域的研究历史。与MetaMapLite的不同之处在于, 消除歧义是Bio-YODIE中的优先事项。Bio-YODIE已被集成到CogStack中,并在大规模临床应用中得到广泛应用。
2019年,Mondal I等人提出了一种基于候选知识库条目与疾病描述相似度的排序方法,探讨了域内子词级信息处理疾病规范化任务的能力。该方法利用由疾病描述m、阳性候选qp、阴性候选qni组成的三元组(qp, m, qni)进行候选排序,引入了一个稳健的、可移植的候选生成方案,该方案不使用手工编制的规则。在标准基准NCBI疾病数据集上的实验结果表明,该系统在很大程度上优于先前的方法。
当前,新的蛋白质和基因序列的数量呈爆炸式增长,这使得对其生物学特性的有效表征和分析变得越来越复杂。2019年, Hu G M等人提出了一个基于网络的图数据库工具SeQuery,通过整合序列结构和功能信息,直观地可视化蛋白质组/基因组网络。用GPCR2841数据集进行的序列测试表明,SeQuery能正确识别查询到的100个蛋白质序列中的99个。SeQuery非常适用于其他生物网络,可以通过添加更多的生物数据库来扩展SeQuery。
第一种是图卷积网络的方法,即在图上使用卷积神经网络。2018年Shang J Y等人通过一个存储模块将药物相互作用(drug-drug interaction,DDI)的知识图谱集成为一个图形卷积网络,并将纵向患者向量建模作为查询,该方法在所有有效性度量方面都优于所有基线方法,并且在现有电子健康记录(electronic health record,EHR)数据中实现了3.60%的DDI率降低(即推荐药品之间有相互作用的概率降低3.6%)。2019年,Wang S S等人提出了一种针对药物组合预测(medicine combination prediction,MCP)的图卷积强化学习模型。其将MCP任务转换为无序马尔可夫决策过程(Markov decision process,MDP)问题,并设计了一个深度强化学习机制来学习药物之间的相关性和不良相互作用。相比于GAMENet,CompNet在Jaccard和F1分数标准上分别提高了3.74%、6.64%。2020年,Kwak H等人构造了一个药物疾病图谱,使用图神经网络学习节点表示,根据学习到的节点表示来预测药物节点和疾病节点是否具有药物不良反应(adverse drug reaction,ADR)关系。与其他算法相比,该模型的接受者工作特征曲线下的面积(area under curve of receiver operating characteristic,AUROC)和精度召回率曲线下的面积(area under curve of precision recall curve,AUPRC)性能分别提高到0.795和0.775。
第二种是知识图谱嵌入的方法,包括将实体和关系转化为连续的向量空间,从而简化操作,同时保留知识图谱的原有的结构。2017年Wang M等人构建了患者疾病-药品图谱,将其嵌入低维空间后,进行用药推荐。首先构建疾病和药品图谱,通过EHR分别连接疾病和药品图谱,形成两个二分图,通过患者数据将两个二分图连接起来,并构建了一个高质量的异构图,该方法的预测准确度(即Jaccard系数)、药物相互作用发生率、冷启动(即没有患者数据时的使用)、临床专家评分均高于基线水平。2019年Wang X Y等人构建了疾病-药品图谱,将其嵌入低维空间后,进行用药推荐,并提出一种基于知识图谱嵌入增强主题模型(knowledge graph enhanced topic model,KGETM)的中药推荐模型。在中药基准数据集上的实验结果表明,该方法优于当时最新的方法,中药知识图嵌入在中药推荐中有很好的应用前景。
(3)研究方向
医学知识图谱在用药推荐系统应用领域的未来研究方向主要有以下几方面。
① 构建完整的医学知识图谱。人类对疾病与药品的认识是动态变化的,结合疾病、症状、药品、药品间的相互作用及患者的临床数据、患病的时间序列信息等,构建一个完整的医学动态知识图谱,确保知识的完整性、准确性和时效性。
② 知识图谱嵌入学习是将实体和关系映射到低维连续向量空间的表示方法,在保留知识图谱结构信息的同时,还能够改善数据稀疏问题,提高计算效率,因此在进行后续用药推荐任务之前,先对知识图谱进行表示学习是很有必要的。
③ 考虑到构建动态医学知识图谱的必要性,而目前大多数知识嵌入表示研究建立在静态的知识图谱上,如何对动态知识图谱进行有效的知识表示是一个待解决的问题。将图时空网络与动态知识图谱相结合的知识嵌入表示用于用药推荐是一个颇具价值的研究方向。
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。