硕士学位论文中期报告
题 目:基于自监督和对比学习的实体链指方法研究
目录
1. 课题主要研究内容及进度情况
1.1. 主要研究内容
1.2. 已完成的主要内容
2. 已完成的研究工作及结果
2.1. 实体链指任务说明
2.2. 实体链指数据集
2.3. 多策略候选实体召回方法研究
2.4. 基于自监督学习的单实体链指方法
2.5. 基于对比学习和图神经网络的集体实体排序方法
2.6. 新闻领域知识库自动化构建系统
3. 后期拟完成的研究工作及进度安排
4. 存在的困难及问题
5. 如期完成全部论文工作的可能性
1. 课题主要研究内容及进度情况
1.1. 主要研究内容
课题主要研究知识图谱领域中的短文本实体链指问题,利用预训练模型、开源大规模知识图谱、对比学习和图神经网络等技术,提升实体链指任务的效果。具体包括:
(1) 基于字符串匹配和实体语义向量编码的候选实体召回方法,在字符串匹配的基础上,通过语义向量编码提升候选实体召回率。
(2) 利用网络百科全书构造候选实体排序的自监督学习数据集,利用该数据集设计辅助训练任务,提升候选实体排序模型的效果。
(3) 使用对比学习在知识图谱的结构化数据上进行基于语义匹配的自监督学习,提升模型对实体的语义表示效果,并基于此结合图神经网络,实现集体实体排序方法。
(4) 利用本课题技术,实现新闻领域知识库自动化构建系统。
1.2. 已完成的主要内容
目前完成基于字符串匹配的候选实体召回、候选实体排序的自监督学习以及针对知识图谱数据的对比学习。初步实验表明,本课题提出的自监督学习在小规模数据集上能稳定提升任务效果。
(1) 多策略候选实体召回 完成通过实体名称字符串匹配召回方法实验、基于预训练模型的语义向量召回方法部分实验,以及剩余所有实验方案设计。
(2) 基于自监督学习的候选实体链指数据集构造 完成方法设计以及大部分实验:包括基于二分类的有监督候选实体排序方法、自监督数据集构造方法实现、在小数据集上对构造的数据集的效果验证消融实验等。
(3) 基于对比学习和图神经网络的候选实体排序 使用较小的模型以及初步完成知识图谱的对比学习预训练,并在实体链指标注数据上进行了验证。此外,完成基于图神经网络的集体实体排序方法设计。
(4) 新闻领域知识库自动化构建 已完成系统搭建和部署,当前使用的实体链指方法为基于文本对二分类的有监督实体链指排序方法。
以上实验在百度千言实体链指数据集上完成。
2. 已完成的研究工作及结果
2.1. 实体链指任务说明
实体链指一般需要以命名实体识别作为前置工作,识别出上下文中的指称,本文研究内容不考虑该阶段任务,直接在识别出指称之后的数据上进行实体链指相关研究。目前学术界和工业界关于实体链指已经有较长时间的研究积累,这些方法由如下三个步骤构成:
(1) 候选实体召回 根据实体提及字符串与整个知识库中所有实体的字符串按照一定规则或算法进行匹配,生成候选实体集。良好的候选实体集要在保证覆盖目标实体的同时,尽可能的小,并且通常对召回算法的运行速度有较高的要求。
(2) 候选实体排序 主要包括单实体排序和集成实体排序两种方法。单实体排序通过算法比较单个待链接指称与候选实体集中每个实体中的关联度,这个过程通常需要利用指称的上下文以及候选实体的描述信息,构成
二元组,对该二元组进行打分后排序。而集成实体排序,同时考虑文档中多个指称、指称上下文以及各个指称候选实体特征的整体关联。候选实体特征一般由实体名称、实体描述、属性及关系三元组、实体热度等构成。
(3) 空实体判断 根据候选实体排序结果,如果候选实体集为空或者排名较高的几个候选实体均不能匹配,那么就将实体预测为一个空实体。否则将排名最高的候选实体作为当前指称的目标实体。
本文的主研究内容围绕候选候选实体召回以及候选实体排序两个阶段进行,如图 1所示。
