??在文章NLP入门(九)词义消歧(WSD)在介绍和实现中,作者介绍了词义消歧的含义以及如何使用简单的算法来实现词义消歧。在本文中,作者将介绍如何使用提取式NLP模型实现词义消歧(WSD),模型灵感来自论文ExtEnD: Extractive Entity Disambiguation。 ??所谓词义消歧,是指在特定的语境中识别歧义词的正确含义,即通常所说的多义词。一词在句子我今天吃了一个苹果
和句子苹果手机好用吗?
它的含义是不同的。词义消歧需要判断同一词在特定语境下的含义。词义消歧分别与实体链接有关,稍后将介绍。 ??在通常的NLP在模型中,词义消歧任务往往作为文本分类完成,取得了良好的效果。ExtEnD: Extractive Entity Disambiguation通过抽取式提出了一种新的范式NLP模型(即阅读理解模型)(即阅读理解模型)也取得了良好的效果。
词义消歧与实体链接
??应当说,词义消歧
属于实体链接
部分。实体链接(Entity Linking)一般分为三个阶段:
- 实体识别
- 候选词生成
- 候选词匹配
在词义消歧中,同一词的不同意义将作为候选词生成,并在第三阶段找到最接近的意义。我们使用实体本草纲目
比如百度百科有15个义务,如下: 本草纲目的具体含义可在特定句子中确定,见以下例子: 在上述句子中,
本草纲目
正确的义务应该是中医典籍,这是典型的实体链接任务,也可以作为词义消歧任务。 ??个人观点是,实体链接通常是实体
链接至图谱中的正确实体,而词义消歧稍微有点区别,绝大多数词语是图谱中的实体,但也有少部分仅仅是词语,而不是实体,比如汉语词语清风、指针等。因此,词义消歧可以通过实体链接很好地实现,但本文仅讨论如何通过抽取式NLP为了实现词义消歧,模型(新范式)可以在新数据中表现良好。
数据介绍
??截至今天,作者通过假期建立了26个单词、327个义项和2889个样本。绝大多数样本来自百度百科全书。每个样本都会给出文本,mention(待消歧词)、正确的义务和url例如:
文本 | mention | 正确义项 | url |
---|---|---|---|
药圣李时珍和他的《本草纲目》 | 本草纲目 | 中医典籍 | https://baike.baidu.com/item/本草纲目/15342 |
??将标记数据分为8:2的训练集和测试集,训练集有2233个样本,测试集有656个样本。 ??模型输入如下图所示: 文本中的mention需要用特殊符号标记,如使用<e>
和</e>
标志,候选集合组合输入下一句,将</ec>
将标志添加到每个义项的结尾。
模型
??一般使用文本多分类
或者多
标签文本
该模型范式匹配正确的义务。本文借鉴Sapienza NLP Group, Sapienza University of Rome
在ACL2022论文《ExtEnD: Extractive Entity Disambiguation》中给出的抽取式模型,使用较为简单的阅读理解模型(MRC)实现。模型结构如下图所示: ??模型训练标注数据,文本最大长度为500,batch size16、12轮训练,0学习率.在测试集1,在测试集上Exact Match
为0.9029。
模型预测
1. 预测原词义项中的预测结果
??我们标注的单词苹果
预测百度百科的义务是: 随意选择两个在线句子来消除歧义,结果如下:
文本:【苹果的做法大全。_苹果怎么好吃?_菜谱大全】_下厨房 正确义:玫瑰科苹果植物
苹果2022财年Q2业绩:手机业务增长亮眼 转型初见成效-股票… 正确义:苹果产品公司
2. 新词语义项上的预测结果
??我们对未标注的单词南京
预测百度百科的义务是: 随意选择两个在线句子来消除歧义,结果如下:
文字:南京菜以金陵菜命名。金陵菜是指以南京为中心,延伸至江西九江的四大代表菜之一。 正确义:江苏省地级市、省会
文字:2004年,电影制片人莱昂西斯萌生了拍摄纪录片《南京》的念头。 正确义:2007年美国雨果·阿姆斯特朗主演的电影
??我们对未标注的单词平凡的世界
预测百度百科的义务是: 随便选取两个网上的句子进行消歧,结果如下:
文本:平凡的世界:永恒的魅力–文史–中国作家网 正确义:路遥长篇小说
《平凡的世界》的主演是谁? 正确的义务015年,王雷、佟丽娅、袁宏主演电视剧
??我们对未标注的单词碧血剑
进行预测,其百度百科义项为: 随意选择两个在线句子来消除歧义,结果如下:
文本:《碧血剑》是当代作家金庸先生的长篇武侠小说。众所周知,金庸先生的著名小说被翻拍成电视剧,《碧血剑》也不例外。 正确的义务:金庸创作长篇小说
文本:2000年版《碧血剑》是由李天生制作、林家栋、佘诗曼、江华主演的古装武侠电视剧。故事还原度不是很高。在这部剧里,我真的很喜欢佘诗曼饰演的阿九! 正确义:2000年香港TVB林家栋主演电视剧
总结
??该项目已开源至Github,网址为:https://github.com/percent4/WSD_With_Text_Extraction。 ??如有疑问,欢迎交流~