1、第40卷第2期2023年06月Vol.40,No 2Jun.2023阜阳师范大学学报(自然科学版)Journal of Fuyang Normal University(Natural Science)基于实体跨度和本地信息的实体关系联合抽取王艳,方贤进(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)摘要:实体关系抽取是信息抽取、自然语言理解、信息检索等领域的核心任务。针对现有方法中存在的仅关注于准确识别实体而无法识别实体间多个关系等问题,本文提出基于实体跨度和本地信息的实体关系联合抽取模型,分割文本形成文本跨度块进行实体识别;对所有候选实体跨度,融合其本地信息进行组合配对后,
2、采用双仿射机制进行关系判定。在CoNLL04、ADE 和 ACE05 等数据集上实验表明,该方法在多个评价指标上均取得较好的性能。关键词:实体关系联合抽取;本地信息;实体跨度中图分类号:TP391.1文献标识码:A文章编号:2096-9341(2023)02-0049-09DOI:10.14096/34-1069/n/2096-9341(2023)02-0049-09Joint extraction of entities and relations based on entity span andcontextual informationWANG Yan,FANG Xianjin(Coll
3、ege of Computer Science and Engineering,Anhui University of Science and Technology,Huainan Anhui 232001,China)Abstract:Entity and relation extraction is the core task in the fields of information extraction,natural language understand-ing,and information retrieval.But previous methods have solely fo
4、cused on accurately identifying entities,resulting in an inabili-ty to recognize multiple relationships between entities.To solve the problems,we present a joint extraction model of entities andrelations based on entity span and contextual information.In this model,Text is segmented to form span for
5、 entity recognition,and all candidate entities are combined paired with their contextual information.Then,the biaffine mechanism is used to recog-nize the relation between entities.Experiment on CoNLL04,ADE and ACE05 datasets show that the proposed method has betterperformance.Key words:joint extrac
6、tion of entities and relations;contextual information;entity span1引言实体关系抽取是信息抽取、自然语言理解、信息检索1等领域的核心任务,其研究成果主要应用于文本摘要、自动问答2、机器翻译3、知识图谱4,5等。早期主要采用管道式方法处理,这种方式简单易实现却割裂了子任务之间的相关性,并带来信息冗余、错误传播等问题。相较于管道式方法,联合学习方法通过参数共享能够利用实体和关系间紧密的交互信息,解决管道式方法所存在的问收稿日期:2022-05-28基金项目:国家自然科学基金(61572034);安徽省科技重大专项(1803090102
7、5);安徽高校与人工智能研究院协同创新项目(GXXT-2021-006)资助。作者简介:王艳(1995-),女,硕士,助教,研究方向:自然语言处理,网络与信息安全。通信作者:方贤进(1970-),男,博士,教授,研究方向:网络与信息安全,智能计算。Email:。王艳,方贤进:基于实体跨度和本地信息的实体关系联合抽取第40卷阜阳师范大学学报(自然科学版)50题。在关系抽取任务中,实体识别是关系抽取的研究基础,使得实体识别成为关系抽取的研究瓶颈之一。研究过程中发现句子中通常包含多个实体且句子中存在的关系可能是复杂的,即同一个句子中可能存在多个关系,而多个关系的判定通常依赖于多个实体的识别。例如 Z
8、eng 等人6提出按照三元组的重叠程度将句子分三种类型即无重叠、单实体重叠、实体对重叠,Dai 等人7利用上下文注意力机制对长度为 n 的句子进行 n 次序列标注,Luo 等人8提出采用双向树标记方法解决实体重叠问题,Hang 等人9提出源-目标实体标签方法解决实体关系重叠问题。马建红等人10提出信息融合标注策略实现实体关系联合抽取,张一凡等人11通过序列化标注方法融合多信息解决重叠三元组问题。但现有方法基本上仅依赖于识别出的实体、实体标签或实体依存等信息,未考虑实体所在上下文的信息对关系判定的影响。为解决以上问题,本文提出基于实体跨度和本地信息的实体关系联合抽取模型,首先使用预训练语言模型(
9、Bidirectional Encoder Representa-tions from Transformer,BERT)12提取文本特征,对文本进行分割形成文本跨度块进行实体识别,对所有识别出的候选实体融合其上下文信息后采用双仿射机制进行关系的判定,采用强负采样方法扩大可训练的特征规模并进一步提升模型性能。整体而言,本模型创新之处如下:1)实体识别任务按照相应规则将文本序列进行有序的分割,对所有分割得到的文本跨度块过滤后再进行实体识别,实现对文本中存在的所有实体的识别;2)关系识别任务通过池化操作融合实体所在上下文信息后,采用双仿射机制进行判定,使得关系的识别不仅仅依赖于实体信息,更有利于解
10、决多个关系的识别问题。2 相关工作实体关系抽取是信息抽取的核心任务,在自然语言处理领域一直受到研究学者的广泛关注。传统研究方法多采用基于特征工程13,14、核函数15,16等方法。随着深度学习的到来,神经网络模型现已取代传统机器学习方法,在各项研究任务中得到广泛的应用。模型结构分为管道式模型和联合模型,在基于机器学习和管道式模型的局限性不断凸显的过程中,基于深度学习的联合模型的优越性被越来越多的学者们认可。Li 等人172014 年首次使用联合模型进行实体关系抽取研究,提出一种增量联合框架,利用不精确的搜索,从文本中抽取新颖且有效的全局特征作为关系判定的软约束,以捕获实体识别任务和关系判定任务
11、的相互依赖性。Miwa 等人18提出将双向树结构的长短期记忆卷积神经网络(LongShort-Term Memory&Recurrent Neural Network,LSTM-RNN)叠加在双向序列的 LSTM-RNN 获取文本序列和依存结构信息。Zheng 等人19使用双向长短期记忆网络(Bidirectional Long Short-TermMemory,BiLSTM)和卷积神经网络(ConvolutionalNeural Network,CNN),在 BiLSTM 之上使用 soft-max 层进行实体识别,在 BiLSTM 之上使用 CNN进行关系分类。在实体识别中将前一个预测标签
12、的嵌入表示作为当前解码输入的一部分来实现实体识别中的标签依赖。Zhang 等人20提出基于全局优化的端到端关系抽取模型,并使用新的 LSTM 特征更好地进行上下文表示。为了解决实体关系抽取中对依存树信息的依赖,Katiyar 等人21提出包含多层的 BiL-STM 的模型,使用多层 BiLSTM 来捕捉单词之间的长期依赖信息。而 Zheng 等人22提出一种新的序列化标注方式,重点提取由两个实体及其关系组成的三元组。基于该动机,研究者提出使用端到端的模型并设计新的标注方法,同时包含实体信息及其关系。该方法可以将实体关系的联合抽取转化为序列标注问题且不需要复杂的特征工程,但使用该标注方法并没有解
13、决多关系识别问题。事实上,每个句子中存在的语义关系通常是复杂的,即一个句子中可能存在多个三元组结构。例如 Zeng 等人6提出基于拷贝机制的端到端学习模型解决重叠问题,在解码过程中,使用一个统一的解码器或使用多个独立的解码器进行解码,该方法是首次在实体关系抽取研究中考虑多关系识别中的实体重叠问题。陈仁杰等人23提出融合实体类别信息的实体关系联合抽取模型,采用树状解码替代传统的一维线性解码,苗琳等人24将注意力机制与图卷积网络结合起来,并融合依存信息解决句子中包含多个相互重叠的关系三元组问题。Sun 等25提出一种新的基于最小风险训练的轻量级联合学习范式,最小化风险训练方法的优势在于优化句子级别
14、的损失而不是词语级别,使得模型学习到更多全局信息。任鹏程等人26提出基于句法依存图蕴含的依赖信息构建依存约束,再将依存信息融合注意力网络进行实体关系抽取。Bekoulis 等人27将实体关系抽取任务看成是多头选择问题,在实现识别多个关系的基础上进一步提升模型性能。之后 Bekoulis 等人28又首次将对抗学习加入实体关系抽取任务,即在训练过程中的嵌入层(Embedding)添加轻微的扰动因子,该方法在一定程度上避免了模型的过拟合。基于深度学习的联合模型实现端到端的实体关系抽取任务,在加强子任务间相关性的同时,进一步提升实体关系抽取任务的实验性能,也证明了联合模型的优越性。3模型设计整体模型框
15、架如图 1 所示。输入层采用BERT 对输入文本进行编码表示后,通过双向循环神经网络(Recurrent Neural Network,RNN)进一步获取文本信息表示,在序列分割和池化层将输出的文本嵌入表示按规则分割形成文本跨度块(Span),对分割出的文本跨度块过滤后通过文本跨度分类器实现实体识别,再将所有识别出的候选实体融合其本地信息表示,经特征融合表示层降维后采用双仿射机制进行关系判定。输出层关系分类层特征融合层文本跨度过滤及实体识别层文本跨度分类层文本分割和最大池化层双向循环神经网络Bert嵌入层输入层(Mason,Work_For,Centers for Disease Contro
16、l)Biaffine Relation ClassifierLCMMCMEntityCLSRCMMCMCLSEntityentityentitySpan classifierCLSSpan MaxpoolingSpan width embeddingsNotentityentitySMSpan MaxpoolingSMRNNRNNRNNRNNRNNRNNRNNRNNRNNRNNCLSMasonHeadedtheCentersforDiseaseControlinAtantaLCM:MCM:RCM:S M:Left Contextual MessageMiddle Contextual MessageRight Contextual MessageSpan Maxpoolingh0h1h2h3h4h5h6h7h8h9图 1基于实体跨度和本地信息的实体关系联合抽取模型框架3.1词的表示文本是自然语言处理任务的研究主体,是由独立的词构成,词是文本表示中能够独立运用并具有特定意义的最小单位。首先要考虑的是如何在计算机内正确表示出文本所蕴含的语义信息。因此文本表示的着眼点落于如何表示每一个词的语