1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide基于Schema增强的中文实体关系抽取方法饶东宁,李冉(广东工业大学 计算机学院,广东 广州 510000)摘要:针对中文实体关系抽取任务中的实体边界切分错误和实体关系重叠,以及不同数据集的关系种类不能很好地迁移的问题,提出一种基于Schema增强的实体关系抽取方法。首先,采用字词混合嵌入的方式融合字与词的语义信息,避免中文分词时边界切分出错所造成的歧义问题;其次,利用指针标注的方式解决关系重叠问题;最后,提取出每个数据集的Schema进行合并作为先验特征传入模型中,以解决实体冗
2、余及关系种类迁移问题。在三大中文实体关系抽取数据集DuIE、FinRE、SanWen上进行实验,相较于先前的模型,该方法分别取得10%、18%、11%的F1提升,且表现出更高的稳定性。关键词:命名实体识别;关系抽取;Schema增强;字词混合嵌入;指针标注DOI:10.11907/rjdk.221225开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP181 文献标识码:A文章编号:1672-7800(2023)002-0047-06Chinese Entity Relation Extraction Method Based on Schema EnhancementR
3、AO Dong-ning,LI Ran(Computer College,Guangdong University of Technology,Guangzhou 510000,China)Abstract:Aiming at the problems of incorrect entity boundary segmentation,overlapping entity relations,and the inability to transfer the relation types of different datasets,an entity relation extraction m
4、ethod based on Schema enhancement is proposed.First of all,the semantic information of characters and words is merged by word mixing and embedding to avoid the ambiguity problem caused by the error of boundary segmentation in Chinese word segmentation.Secondly,the problem of relationship overlap is
5、solved by using pointer annotation.Finally,the Schema of each dataset is extracted and merged into the model as a priori features to solve the problem of entity redundancy and relationship type migration.Experiments were carried out on the three primary Chinese entity relation extraction datasets Du
6、IE,FinRE,and SanWen.Compared with the previous model,they achieved F1 improvements of 10%,18%,and 11%,respectively,and showed higher stability.Key Words:named entity recognition;relation extraction;Schema enhancement;character-word embedding;pointer labeling0 引言实体关系抽取是知识图谱构建、智能问答、信息检索等下游任务的核心技术之一,旨在
7、从非结构化文本中抽取出结构化信息,即抽取出实体及其间关系,并以三元组的形式展现,例如“甄嬛传由郑晓龙执导”经过实体关系抽取得到三元组。早期基于神经网络的实体关系抽取工作采取流水线式抽取方法,先抽取实体再进行关系分类,这种方法实现起来比较简单,但存在错误积累、交互缺失和实体冗余等问题。后期的联合式抽取方法1能够在一个模型中实现实体抽取和关系抽取,这种方法能够进一步利用两个子任务之间的潜在信息,缓解流水线式方法所带来的问题,逐渐成为实体关系抽取主流方法。然而,目前大部分联合式抽取方法主要存在3个问题:首先,针对中文文本的实体关系抽取,在进行分词时常会因边界切分错误而引起歧义问题;其次,无法解决实体
8、冗余和关系重叠问题;最后,关系种类和数量均是预定的,往往存在不够全面的问题。收稿日期:2022-03-04基金项目:广东省自然科学基金面上项目(2021A1515012556)作者简介:饶东宁(1977-),男,博士,CCF会员,广东工业大学计算机学院副教授、硕士生导师,研究方向为自然语言处理与智能规划;李冉(1997-),女,广东工业大学计算机学院硕士研究生,研究方向为自然语言处理。2023 年软 件 导 刊针对以上问题,本文在已有方法的基础上:首先采用基于字词混合嵌入的方式避免实体边界切分错误引起的歧义问题,在保留字的灵活性的基础上融合了词的信息,并加入位置嵌入保留字的位置信息;其次采用指
9、针标注的方式解决实体嵌套和关系重叠的问题,通过识别出的头实体信息标记其对应的关系和尾实体,每个头实体可存在多个关系和尾实体;最后提出基于Schema增强的方法,根据不同数据集抽取出其对应的实体类型以及关系种类之间存在的模式并进行融合,构建出适配于不同数据集的Schema,以提高实体关系抽取方法在不同数据集间的可迁移性,同时可以解决实体冗余的问题。本文将该方法称为基于Schema增强的中文实体关系抽取方法,简称为SCHEMA。1 实体关系抽取方法研究现状早期的实体关系抽取工作多采用基于规则的方法,需要专家设计大量规则或人工进行特征筛选,不但需要操作人员有专业的知识背景,而且对数据的迁移且信息迁移
10、很差,无法满足大规模的实体关系抽取。近年来,由于深度学习技术2的持续发展与水平提高,神经网络模型框架3日渐丰富,神经网络方法也被引入到实体关系抽取任务中。现阶段,基于神经网络的实体关系抽取方法根据实体识别和关系抽取这两个子任务是否独立,分为流水线式抽取方法和联合式抽取方法两类。流水线式抽取方法通常先进行命名实体识别4,再进行实体对间的关系分类5,其优点为实现起来比较简单,可以灵活针对两个子任务分别选择合适的实体识别和关系抽取模型,在工业界被广泛运用。但同时缺点也是显而易见的,首先命名实体识别阶段的错误会影响下一步关系分类的表现,存在误差积累问题;其次,需要逐一遍历任意两个实体对,判断是否存在关
11、系并进行关系分类,但并不是所有实体对之间都存在关系,存在实体冗余问题;最后,忽略了这两个子任务间天然存在的语义联系和依赖关系,存在交互缺失问题。联合式抽取方法使用一个模型进行实体识别和关系抽取,考虑到了两个子任务之间潜在存在的交互关系,可以进一步利用两个子任务之间的潜在信息,在一定程度上避免了流水线式方法中存在的弊端,与之前的方法相比有明显提高,但大多数现有方法无法解决文本边界切分错误引起的歧义问题,同时无法处理句子中包含的实体冗余以及关系重叠的情况,也存在不同数据集的关系不能很好迁移的问题。为了应对句子中包含关系的重叠情况,许多研究者进行了改进。例如,Bekoulis等6提出的MHS模型使用
12、条件随机域7层将实体识别任务和关系提取任务建模为一个多头选择问题;Zhang等8提出的Seq2UMTree模型通过将三元组中的解码长度限制为3个,并通过去除三元组之间的顺序来最小化曝光偏差的影响;Ren等9提出的CoType模型使用数据驱动的文本分割算法来抽取实体,并将实体、关系、文本特征和类型标签共同嵌入到二个低维空间,分别进行实体和关系抽取;Wei等10提出一种级联式解码实体关系抽取框架CASREL,使用多层二元指针网络标记实体,将关系建模为将头实体映射到尾实体的函数,级联解码器包含一个头实体标注器和一系列关系特定的尾实体标注器,将两个子任务转化为序列标注问题;Wang等11提出的TPLi
13、nker模型是一种单阶段联合式的实体关系抽取模型,将实体关系联合抽取转化为标记对接问题,采用统一的标注方法提取实体和重叠关系,模型不存在训练与推理之间的间隙,可以解决暴露偏差问题;Ye等12提出的CGT模型是一个带有生成式 Transformer的对比学习实体关系三元组提取的框架,该框架是一个共享的Transformer模块,将三元组抽取视为一个序列生成任务,并提出一种新颖的三元组校准算法,能够在推理阶段过滤掉错误的三元组;葛君伟等13采用分层标注的方式进行实体关系的联合抽取,能够在一定程度上解决关系重叠的问题。为解决文本边界切分错误引起的歧义问题,许多研究者进行了尝试。例如,Li等14提出的
14、MG Lattice模型将字级信息集成到字符序列输入中,从而避免分割错误,同时利用外部语言知识减轻多义歧义;Zhong15提出一种融合词级信息和字符级信息的深度学习框架FGGRM,利用多粒度特征与门控循环机制的高效融合动态学习语义信息,以减少分割错误的影响;Zhong16设计了一个多级门控循环机制的框架 MGRSA,将词粒度信息统一为字符粒度信息。为了减少多义性歧义,在两部分上使用了自我注意,包括具有外部语义知识的词向量;葛君伟等13采用基于字词混合嵌入的方式,在词向量的基础上融合字向量信息,并且加入了位置嵌入来保留字在文本中的顺序,能够在一定程度上解决中文分词时边界切分错误所造成的歧义问题。
15、然而,目前已有的方法往往不能同时解决实体冗余、关系重叠以及中文文本的边界切分问题,同时不同方法对特定的训练预料依赖性较高,可迁移性较差。因此,本文融合 Wei等10和葛君伟等13的思想,分别使用指针标注的方法和字词混合嵌入的方法解决关系重叠以及中文文本边界切分的问题,同时自行构建了一个融合不同数据集实体类型和关系种类之间模式的Schema,以解决实体冗余问题,同时可以提高实体关系抽取方法在不同数据集之间的可迁移性。2 基于Schema增强的中文实体关系抽取模型本文模型结构如图 1所示。首先进行字 id序列的输入,利用字词混合嵌入得出相应的文本向量序列,再加上位置嵌入,进入编码层进行编码,得到经
16、过编码后的序列 48第 2 期饶东宁,李冉:基于Schema增强的中文实体关系抽取方法H。将文本向量序列H输入主体指针网络,从而得到头实体S;然后查询与头实体S对应的Schema,筛选出所有的候选关系作为先验特征与S对应的子序列HS以及编码序列H进行相加;最后将相加后的序列输入Transformer层,对S在Schema中对应的每一个候选关系均预测对应的尾实体的首、尾位置,最终得到文本中所有的三元组。在整个过程中,对于在Schema中不存在对于关系的头实体,则不进行其对应关系的尾实体抽取。2.1字词混合嵌入在中文分词中往往会出现词语边界切分错误所引起的歧义问题,不同的分词边界往往代表作不同的含义,例如对于“下雨天留客天留我不留”,不同的分词方式会造成完全不同的含义,分别为“下雨天留客/天留我不留”和“下雨天/留客天/留我不/留”。通常采取字标注的方法避免这个问题,即以字为单位进行输入。然而单纯的字嵌入难以存储有效的语义信息,为更有效地融入语义信息,本文采取葛君伟等13使用的字词混合嵌入思想,即预先训练一个word2vec模型,通过该模型加载对应的词向量,然后与字向量进行融合。为保持向量