1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期0引言近年来,中文短文本实体消歧成为自然语言处理(Natural Language Processing,NLP)领域中众多下游任务的基础工作,如基于搜索引擎的实体搜索任务1、基于知识库的问答任务2、知识图谱构建3等,并且起到了越来越重要的作用。实体消歧是指将一段文本中指定的指称映射到知识库中某个实体的过程,其难点主要在于知识库中一般存在多个与指称同名的实体且每个实体又存在多种表示方式。长文本具有丰富的上下文语境和充足的语义信息,有利于长文的实体消歧。然而像查询文本、微博评论以及其他更短的文本,由于上下文语境
2、不够充分、语义稀疏、文本口语化等问题,仅凭指称上下文与候选实体描述的语义相似度来对指称进行消歧,往往难以取得较好的效果4。针对基于短文本实体消歧存在的上述问题,本文提出一种基于多特征因子融合的实体消歧模型,通过使用多层感知机(Multilayer Perceptron,MLP)和加权融合,将候选实体在不同角度的特征得分进行融合,综合考虑指称上下文与候选实体描述的语义相似度、指称类别嵌入与实体嵌入的语义相似度、同一查询文本中相邻指称候选实体间的共现关系,以及实体流行度4个特征,来更好地完成中文短文本的实体消歧。1 相关工作1.1中英文长文本消歧模型早期的实体消歧大多是在中英文的长文本数据集上进行
3、的,并且按照消歧对象的不同可分为局部消歧模型和全局消歧模型。局部消歧模型5-9对文档中的每个指称单独消歧,一般基于词向量和循环神经网基于多特征因子融合的中文短文本实体消歧王永缔,雷刚(江西师范大学软件学院,江西 南昌 330022)摘要:现有中文短文本实体消歧模型在消歧过程中大多只考虑指称上下文与候选实体描述的语义匹配特征,对同一查询文本中候选实体间的共现特征以及候选实体与实体指称类别相似特征等有效的消歧特征考虑不足。针对这些问题,本文首先利用预训练语言模型获得指称上下文与候选实体描述的语义匹配特征;然后,针对实体嵌入和指称类别嵌入提出共现特征与类别特征;最后,通过融合上述特征实现基于多特征因
4、子融合实体消歧模型。实验结果表明本文提出的共现特征及类别特征在实现实体消歧中的可行性和有效性,以及本文提出的基于多特征因子融合的实体消歧方法能够取得更好的消歧效果。关键词:共现特征;类别特征;多特征因子;多头注意力;Ernie中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.01.006Chinese Short Text Entity Disambiguation Based on Multi-feature Factor FusionWANG Yong-di,LEI Gang(School of Software,Jiangxi Nor
5、mal University,Nanchang 330022,China)Abstract:Most of the existing Chinese short text entity disambiguation models only consider the semantic matching features between the mention context and the description of the candidate entity in the disambiguation process,and do not consider the effective disa
6、mbiguation features such as the co-occurrence features between the candidate entities in the same query text and thesimilarity features between the mention type of the candidate entities and entities.To solve these problems,this paper first usesthe pre-training language model to obtain the semantic
7、matching features of mention context and candidate entity description.Then,co-occurrence feature and type feature are proposed for entity embedding and mention type embedding.Finally,by fusingthe above features,the entity disambiguation model based on multi feature factors is realized.The experiment
8、al results show thatthe co-occurrence features and type features proposed in this paper are feasible and effective in entity disambiguation,and the entity disambiguation method based on multi-feature factor fusion proposed in this paper can achieve better disambiguation effect.Key words:co-occurrenc
9、e feature;type feature;multi-feature factor;multi-head attention;Ernie收稿日期:2022-02-23;修回日期:2022-04-11基金项目:国家自然科学基金资助项目(62062040);江西省教育厅科技项目(GJJ160315)作者简介:王永缔(1994),男,辽宁沈阳人,硕士研究生,研究方向:自然语言处理,E-mail:;雷刚(1974),男,江西进贤人,副教授,研究方向:机器学习,自然语言处理,E-mail:。文章编号:1006-2475(2023)01-0030-072023年第1期络、卷积神经网络等网络结构建模来将
10、文本映射到统一的语义向量空间中,在此基础上根据指称上下文与候选实体的知识库描述在各个粒度(表面形式、上下文、文档)的语义相似度、指称上下文主题与实体类别相似度,以及实体流行度等基于统计的稀疏特征进行指称的单独消歧。Yin等9最早将基于预训练语言模型BERT(BidirectionalEncoderRepresentationfrom Transformers)10微调(finetune)处理NLP任务的方式应用于实体消歧中,在当时的多个数据集上达到了最佳效果。早期的全局消歧模型一般分为2种:一种是根据消息传播机制使用动态规划算法求取全局的最优解11-13;另一种是将每篇文档中的指称和候选实体建
11、模为一张图,在此基础上基于图的随机游走算法求取每个候选实体的稳态概率并以此来约束模型的训练14-15。此后,Yang等16提出从已消歧指称对应的实体中积累知识来为未消歧指称提供更多的信息帮助决策。Phan等17提出了一种类似于使用克鲁斯卡尔算法求解最小生成树的方式每次对文档中的一对指称进行消歧,反复迭代直到文档中的全部指称消歧完成。此外,Chen等18将指称的类别嵌入与实体嵌入的余弦相似度得分集成到大量已有的局部模型得分的计算中,结果显示该特征得分能够帮助模型纠正大量类别不正确的链接实体。1.2中文短文本实体消歧模型早期中文短文本实体消歧的研究19-22大多是基于词向量23和机器学习中的词频-
12、逆词频(tf-idf)值及支持向量机等,一般没有使用到神经网络或只用到了浅层的神经网络,其研究重点在于文本噪声、知识库噪声的处理以及候选实体生成策略等。在近期的中文短文本实体消歧研究中,文献 24-26 使用局部消歧模型,在模型的结构设计上进行了创新,其研究重点在实体描述与指称上下文的相似性上并未考虑到实体的共现特征及类别特征。Zhao等4基于注意力机制及BERT的微调捕获指称上下文与候选实体描述的局部语义相似信息,在此基础上,基于重启随机游走算法进行全局消歧,其采用的实体转移概率矩阵14是基于维基百科的统计知识所得。此外,文献27-28 和本文一样采用了多特征因子融合的方式对候选实体进行打分
13、、消歧。其中文献 27 设计了3种模型从不同角度生成候选实体相关特征,并使用梯度提升树构建分类模型进一步完成实体消歧,在CCKS2019短文本实体链指比赛中取得了第4名的成绩。文献 28 使用多个微调后的预训练语言模型对候选实体进行打分及排名,将上述得分及排名视作有助于实体消歧的特征因子,以此通过MLP将多个预训练语言模型的消歧结果及其他数据集的统计特征进行融合,得到候选实体的最终得分完成消歧。该方案在 CCKS2020及百度 2021这 2项中文短文本实体链指评测比赛中均取得了第一名的成绩。综上,实体消歧模型一般分为局部消歧模型和全局消歧模型2种,从特征的角度考虑其区别在于模型在消歧的过程中
14、是否考虑到了实体间的共现,对证明共现特征在实体消歧中起着很关键的作用14-15。除了共现特征外,类别特征通常对改善模型消歧结果能起到一定作用18。此外,实体流行度特征一直是实体消歧中一项不可忽视的因素。现有的中文短文本实体消歧模型在消歧过程中大多仅考虑候选实体描述与指称上下文的语义匹配特征,对类别特征与共现特征的研究不足。其中大部分模型都没有考虑到类别特征的应用,更没有提出明确有效的类别特征的度量与应用方法;对共现特征的研究一般停留在使用图随机游走算法进行全局消歧,然而当使用固定外部知识库所提供的候选实体时,很难利用到维基百科所提供的有效的初始概率转移矩阵,因此此类全局消歧模型也就很难应用到使
15、用指定外部知识库提供候选实体的实体消歧过程中。针对上述缺点,本文首先基于实体嵌入和指称类别嵌入13,18提出一种新的共现特征及类别特征以及它们的计算方式,然后将计算得分集成到使用指称上下文与候选实体描述语义匹配特征进行消歧的模型得分中,最后在集成模型的得分上通过加权的方式融入实体先验概率完成实体消歧。实验结果表明,本文提出的类别及共现特征得分衡量方式及整体消歧流程是有效的,能够明显地改善消歧的模型中基于指称上下文和候选实体描述语义匹配特征进行消歧的效果。2基于多特征因子融合的实体消歧方法本文提出的基于多特征因子融合的实体消歧方法,首先将基于指称上下文和候选实体描述语义匹配特征的模型作为实体消歧
16、基模型,然后,在其基础上采用系列特征得分融合方式来提高模型的消歧效果。模型的整体消歧流程如图1所示。基于多特征因子融合的实体消歧方法计算步骤如下:1)将指称使用掩码替换后的查询文本和知识库所有实体的实体描述分别输入到预训练语言模型中,提取出指称的类别嵌入和知识库实体的实体嵌入。2)将指称上下文与候选实体的知识库描述输入到步骤1使用的预训练语言模型中,基于二者的语义匹配得分筛选出得分最高的n个候选实体并保留其语义匹配得分。3)基于步骤1所得指称类别嵌入及实体嵌入,使用共现模型及类别模型分别计算由步骤2所得的n个候选实体的共现特征得分及类别特征得分。4)使用多层感知机将由步骤2和步骤3所得的n个候选实体的3个特征得分映射到一维向量空间中,得到这n个候选实体在上述3个特征角度的综合得分,将其与候选实体各自的先验概率加权融合得到这n个候选实体的最终得分,选取最终得分最高的候选实体作为目标即完成整体消歧流程。2.1基模型特征基模型即仅使用指称上下文与候选实体描述语义匹配特征进行消歧的模型,通过微调预训练语言模型处理实体消歧任务已被证实能取得很好的消歧效王永缔,等:基于多特征因子融合的中文短文本实