硕士学位论文开题报告
题 目:基于远监督和对比学习的实体链指方法研究
目录
1. 课题来源及研究的背景和意义
1.1. 课题的来源
1.2. 课题研究的背景和意义
2. 国内外在该方向的研究现状及分析
2.1. 文本嵌入与预训练模型研究现状
2.2. 候选实体召回研究现状
2.3. 候选实体排序研究现状
2.4. 国内外文献综述的简析
3. 主要研究内容
3.1. 多策略候选实体召回方法研究
3.2. 基于远监督的实体链指数据集构建方法研究
3.3. 基于远监督和对比学习的候选实体排序方法研究
3.4. 新闻领域知识库自动化构建系统
4. 已完成的研究工作
5. 研究方案及进度安排,预期达到的目标和取得的研究成果
5.1. 研究方案
5.2. 预期达到的目标和取得的研究成果
5.3. 进度安排
6. 为完成课题已具备和所需的条件和经费
7. 预计研究过程中可能遇到的困难和问题,以及解决的措施
8. 主要参考文献
1. 课题来源及研究的背景和意义
1.1. 课题的来源
本课题来源于人民网传播内容认知国家重点实验室的开放课题基金项目《传播内容三层级化的可信存储、价值观分析及数字标准方法研究》。本课题主要关注全媒体知识图谱构建与推理中的实体链指方法研究。
1.2. 课题研究的背景和意义
随着人工智能相关理论和硬件计算能力的提升,以深度学习为代表的机器学习技术也具备越来越强大的能力,但这些算法对标注数据的严重依赖成为其发展瓶颈。预训练技术的发展极大的缓解了这一问题,然而受限于深度学习模型的可解释性不足,无法有效控制以及指导模型在训练过程中究竟学到了哪些知识,导致相关技术在一些金融领域、问答场景等对数据可靠性要求较高的应用场景收到限制。
知识图谱是通过对人类知识进行整理,并通过图这一数据结构来存储相关知识的技术。基于知识图谱发展的知识表示、推理计算等技术,使得深度学习与可信计算的结合成为可能,进而实现更为可靠的推荐系统、智能问答、机器翻译、搜索引擎。在知识图谱的构建和使用过程中,由于自然语言存在大量的歧义和多样的表达形式,即一词多义和多词同义,一段文本中出现的实体指称,可能存在多个同名的实体,需要通过实体链指进行消歧。实体链指就是利用指称的上下文和知识库中实体相关信息,在知识库中找到当前指称的对应的目标实体。在知识图谱构建过程中,通过实体链接技术使得构建的每一个实体都能唯一描述真实世界中的一个事物,从而维护知识库中实体数据与真实世界的一致性。此外,实体链指在基于知识图谱的问答系统、翻译等系统中也具有关键作用。在这些应用场景中,一个完整的实体链接任务通常可以划分为以下几个阶段:
(1). 命名实体识别 通常进行实体链接前都需要先使用命名实体识别找出文本中的实体指称,但大多数研究工作都将命名实体识别和实体链接划分为两个不同任务进行研究和评测。
(2). 候选实体召回 由于大多数场景下,带链接的知识库都具有较大的规模,通过一些相对简单的规则,可以高效的过滤掉知识库中绝大部分无关实体,从而提升实体链接系统的效率。一个好的召回算法,为系统带来效率提升的同时往往还能大大简化后续排序任务的难度。
(3). 候选实体排序 通过对指称上下文以及候选实体的特征进行建模,计算两者的关联度作为链接的概率,并以此排序。
(4). 空实体判断 判断排序靠前的实体是否为目标实体,如果不是,那么当指称被判断为一个无法链接的空实体。
实体链接从知识图谱技术提出以来就受到学术界和工业界的广泛关注。由于实体链接在知识图谱的构建和使用过程中都是必不可少的环节,其准确率直接影响所构建的知识图谱质量以及下游任务的效果。
现有实体链接方法根据是否需要标注数据分为无监督和有监督两种。无监督方案不受标注数据的限制,能够以较低成本构建出实体链指系统,但准确率较低。有监督方案通常具有更高的准确率,但受到标注数据成本的限制,难以在不同数据和领域中普及。如果能降低训练数据的获取成本,便能有效平衡实体链接系统的准确率和搭建成本。
2. 国内外在该方向的研究现状及分析
在知识图谱的构建和基于知识图谱的下游任务中,使用的实体链指技术通常包括候选实体召回和排序两个阶段。召回阶段通常只使用知识库中每个实体的实体名称,从而以更小的计算代价对庞大的知识库进行快速过滤。排序阶段需要使用每个候选实体尽可能多的特征。比较直观的,可以使用实体之间的关系和实体属性,此外还包括一些非文本特征,例如实体热度[3][14][16][17]、实体类别[18]等。候选实体召回和排序两个两个阶段也具有一定共性,即基于文本特征设计算法时,本质上都是筛选出与指称上下文有相同语义或有密切语义关联的候选实体,因此各种基于字面量或词向量的无监督文本相似度算法[9][10][11][12],以及近年来基于预训练的文本表示模型[13]等可以被用于实体链指任务。
2.1. 文本嵌入与预训练模型研究现状
许多实体链指方案都需要将文本编码成一个向量,在向量空间中计算文本对之间的语义关系。BERT[24]等预训练模型相较于传统的CNN、LSTM等模型,具有更强大的语义编码能力,预训练使得BERT能够在无标注的语料上学习到大量信息,从而可以利用更深层的语义信息提升下游任务的效果。但文献[13]表明BERT等模型直接对句子进行编码后的向量并不能很好的表示文本的语义,导致在进行文本相似度计算时效果较差,并进一步提出了BERT-flow,该模型对文本的嵌入表示向量能够提文本相似度计算的效果。对比学习是基于BERT这一缺点进行改进的另一种预训练方法,训练目标为最小化正样本对的距离,最大化负样本对的距离进行。文献[28]通过在预训练阶段使用对抗攻击、打乱文本顺序、删减字符和Dropout等机制来构造与输入文本相似的正样本。文献[29]使用更简单的两次Dropout获得两个相似的输入作为正样本。对比学习在文本相似度任务上取得了明显的提升。