对论文的综合评价
该学生的毕业论文主要研究了基于自监督学习和图神经网络的候选实体链接方法,选题具有较大的实际应用价值。
该学生阅读了较多文献,对所研究的问题有较为深入的理解,论文针对实体链接的候选实体召回和候选实体排序两个环节,具体进行了以下三个方面的研究:
(1) 候选实体召回方法研究。主要包括基于字典树的字符串模糊匹配召回以及使用语义向量召回两种关键方法。利用候选实体一些名称通常都具有相同的前缀或后缀这一特点,提出使用字典树构建实体别名索引进行前后缀匹配的方法,以较少的额外计算代价取得召回率的提升。为了避免对别名列表的依赖还提出提出基于预训练模型对实体进行语义编码,然后通过语义向量近似检索完成候选实体召回的方法。并通过实验验证了缺少别名列表时使用语义向量检索可以提升候选实体召回的效果。
(2) 基于自监督学习的候选实体排序方法研究。在候选实体排序阶段,现有方法使用预训练模型学习指称上下文和候选实体特征之间的语义关联,而预训练任务与实体链接任务存在明显差异;为了消除这种差异的影响,论文提出基于自监督学习的候选实体排序方法,利用现有的知识图谱构建实体链接相关的判别式自监督学习任务。此外,使用对抗训练及多任务学习等方法进一步提升模型的泛化性。实验验证了文章提出的方法的有效性。
(3) 基于图神经网络的候选实体排序方法研究。针对候选实体排序阶段难以准确建模文档中的所有文本、指称以及候选实体之间的关系这一问题,提出异构图神经网络模型 HetePinSage,并利用实体链接有监督和自监督任务学习图结点的初始化表示。实验表明,该方法相较于仅使用局部上下文语义特征或同构图神经网络等方法能取得更好的效果。
该学生的基础知识较为扎实,实践能力较强,独立完成工作的水平较高。论文写作规范、逻辑通顺、结构清晰,其中提出基于自监督学习和异构图神经网络等实体链接方法具有一定的创新性,实验验证了提出方法的有效性。达到了硕士学位论文的要求,建议准予答辩。