端到端的嵌套命名实体识别方法研究

资源描述

1、Computer Engineering and Applications计算机工程与应用2023，59（7）命名实体识别（named entity recognition，NER）是自然语言处理（NLP）中的一项重要任务，也是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础性工具。众多NER处理方法中序列标注方法占据主导地位，其中采用序列模型（例如，conditional randomfields（CRF）1或 long short-term memory（LSTM）2）来端到端的嵌套命名实体识别方法研究邓力源1，陈艳平1，2，武乐飞3，秦永彬1，2，黄瑞章1，2，郑庆华3，

2、谭曦41.贵州大学计算机科学与技术学院，贵阳 5500252.贵州省公共大数据重点实验室，贵阳 5500253.西安交通大学计算机科学与技术学院，西安 7100494.贵州青朵科技有限公司，贵阳 550025摘要：命名实体识别（NER）被视为自然语言处理中的一项基础性研究任务。受计算机视觉中单阶段（one-stage）目标检测算法启发，借鉴其算法思想并引入回归运算，提出有效识别嵌套命名实体的端到端方法。基于多目标学习框架，利用深度神经网络将句子转换为文本特征图以回归预测嵌套实体边界，设计中心度方法抑制低质量边界。与多种方法在ACE2005中文数据集上进行对比实验。实验结果表明，该方法有效识

3、别文本中的嵌套命名实体，且计算机视觉算法思想和边界回归机制在自然语言处理任务中取得理想的效果。关键词：嵌套命名实体；回归运算；中心度；端到端；多目标学习文献标志码：A中图分类号：TP391.1doi：10.3778/j.issn.1002-8331.2109-0498Research on End-To-End Nested Named Entity Recognition MethodDENG Liyuan1,CHEN Yanpin1，2,WU Yuefei3,QIN Yongbin1，2,HUANG Ruizhang1，2,ZHENG Qinghua3,TAN Xi41.College o

4、f Computer Science and Technology,Guizhou University,Guiyang 550025,China2.Guizhou Provincial Key Laboratory of Public Big Data,Guiyang 550025,China3.College of Computer Science and Technology,Xi an Jiaotong University,Xi an 710049,China4.Guizhou Qingduo Technology Co.,Ltd.,Guiyang 550025,ChinaAbstr

5、act：Named entity recognition（NER）is regarded as a basic research in natural language processing.Inspired by theone-stage object detection algorithm in computer vision,this paper proposes an effective end-to-end method for identifyingnested named entities by using its algorithm idea and introducing r

6、egression operation.Based on multi-task learningframework,the paper uses deep neural network to transform sentences into text feature graphs to regress nested entityboundaries,and designs centrality method to suppress low-quality boundaries.A comparative experiment is carried out withseveral methods

7、 on ACE2005 Chinese dataset.Experiments show that this method is effective in identifying nested namedentities in text,and the computer vision algorithm idea and boundary regression mechanism achieve ideal results in natu-ral language processing tasks.Key words：nest named entities;regression operati

8、on;center score;end to end;multi-tasklearning基金项目：国家自然科学基金通用联合基金重点项目（U1836205）；国家自然科学基金重大研究计划（91746116）；国家自然科学基金（62066007，62066008）；贵州省科技重大专项计划（黔科合重大专项字20173002）；贵州省科学技术基金重点（黔科合基础20201Z055）。作者简介：邓力源（1995），男，硕士，CCF学生会员，研究方向为自然语言处理、命名实体识别，E-mail：；陈艳平（1980），男，副教授，CCF会员，研究方向为人工智能、自然语言处理；武乐飞（1991），男，博士，研

9、究方向为自然语言处理；秦永彬（1980），男，教授，CCF 高级会员，研究方向为智能计算，机器学习和算法设计；黄瑞章（1979），女，副教授，CCF会员，研究方向为数据挖掘、文本挖掘、机器学习、信息检索；郑庆华（1969），男，博士，教授，研究方向为大数据知识工程、网络舆情监测。收稿日期：2021-09-29修回日期：2021-11-15文章编号：1002-8331（2023）07-0278-072782023，59（7）输出一个最大化的标签序列。应注意：命名实体中嵌套现象广泛存在，如ACE语料库中嵌套率达到33.90%3，这些嵌套命名实体被广泛地用于表示实体间的语义关系，例如，从属关系、隶属

10、关系、上下级关系等。因序列模型通常假定输入句子结构扁平，因此无法有效识别嵌套命名实体。通过调整序列模型来支持嵌套命名实体识别，例如，级联策略、分层策略或联合策略4。这些策略有以下待解决问题：（1）同类型或同层嵌套实体仍然难以识别。（2）不能充分利用带注释的数据。（3）有些地方需要人工添加标签、更改标签序列。（4）联合策略大大增加了实体类型数量，进而干扰了嵌套命名实体识别性能。近年来，学界提出了一些面向嵌套命名实体识别的模型来解决嵌套问题。这些模型通常将嵌套结构转换为非序列性结构，例如，超图（hypergraph）5或树状表示法（tree representation）6。部分模型将识别过程设计

11、为多阶段方式，例如分段解析7；另有采用序列到序列8或端到端9框架。本文探讨了计算机视觉中目标检测任务与自然语言处理中命名实体识别任务中二维图像与一维线性文本的特点，认为两者具有空间结构以及语义结构的相似性。且鉴于单阶段目标检测方法的成功实现，本文借鉴目标检测算法思想提出了一种识别嵌套命名实体的多目标学习端到端模型，并取得了理想效果。在此模型中，每个输入模型的句子首先通过基础网络映射到递归特征图中，后将实体要素的位置特征与其他位置特征组合，生成上下文信息及语义依赖的抽象表示以在每个空间位置上预测生成实体边界。实体边界是命名实体候选对象的抽象表示，除类别信息外，每个边界还包含其位置信息以及中心度（

12、本文提出的一种方法，后文介绍），该位置参数表示句子中命名实体候选对象的生成位置以及生成位置距真实实体边界的左右距离。在模型训练过程中，为了界定每个空间位置预测出边界的优劣性，本文创新性地引入中心度方法并添加回归层以最大程度地减少其相对于真实命名实体的位置偏移，称其为：边界回归，这使预测的每个边界都可以接近相邻的真实命名实体。本文模型是一个端到端的多目标学习框架可以定位命名实体位置并同时预测实体类别。1相关工作因本文在命名实体识别任务中受计算机视觉中目标检测思想启发。下文将相关工作分为目标检测和命名实体识别两部分。目标检测任务可分为两个子任务：目标分类与目标定位。目标的分类任务判断输入的图像或图

13、像区域（proposals）中是否有某类目标存在，输出一组带分数的标签来表明某类目标出现的可能性；目标的定位任务确定输入的图像或图像区域中某类目标的位置和范围，输出目标的包围盒（bounding box）、物体中心位置、边界等，通常使用包围盒来表示目标的位置信息。目前目标检测算法主要基于深度学习模型，大体可归为two-stage目标检测算法与one-stage目标检测算法。基于两阶段（two-stage）算法的模型可理解为是一种级联模型，通常分三个阶段：分割、特征提取、分类。分割以生成候选目标位置以进行预测，避免穷举搜索，一般采取选择性搜索（selective search，ss）提取包围盒。

14、特征提取目的是从原始输入图像中提取更高阶的抽象特征。此过程的输出通常表示为特征映射。特征提取过程可以截取用于高质量图像分类的标准体系结构中的基本网络，如VGG-1610、GoogLeNet11等。最后，通过输出层（例如线性SVM或Softmax）来预测每个候选区域的置信度得分。One-stage目标检测算法直接一并预测物体的类别与位置，该算法模型可解释为一种端到端模型，端到端模型可进行全局优化并共享参数。这些模型在特征提取层与输入层通常是相似的。主要区别在于产生候选框（region proposal）的策略。例如，Faster R-NN采用锚框为每个特征图生成候选框12。Erhan等人13使用

15、单个深度神经网络来生成少量候选框。Redomon等人14将图像划分为与多个候选框关联的网格。Liu等人15使用基本网络将图像映射到多个特征映射，以生成不同比例的候选框。随着神经网络在近年来的发展，NLP任务仍有相当大的潜力。深度学习（deep learning，DL）被应用于各类NLP任务中，并取得瞩目的成果。在命名实体识别任务中，DL也得到了广泛的应用。早期的模型通常采用序列模型来输出扁平化的命名实体。（如LSTM、Bi-LSTM或Bi-LSTM-CNN）。为处理嵌套问题，序列模型被重新设计，它有三种变体：分层模型、级联模型、联合模型16。同时解析树方法也被广泛应用，此方法将嵌套的命名实体表

16、示为树结构2例如Finkel等人17使用解析树的内部结构信息来扁平化嵌套的命名实体。Zhang等人18采用了解析模型。Jie等人19试图捕获解析树的全局依赖性。近年来，许多模型被设计用来直接识别嵌套命名实体。Lu等人5将嵌套命名实体解析为超图表示。Chen等人20设计了边界组合（BA）模型来识别嵌套命名实体。BA模型识别命名实体的边界，将它们组合为候选实体集，并选择最可能的候选实体作为预测结果。因命名实体边界具有较小粒度，其更多取决于局部特征。因此，此模型对识别嵌套命名实体有不错的效果。主要缺点是采用级联框架，它们不能保证有一个全局最优解。Xu 等人21和 Sohrab 等人7对每个可能的片段进行验证。Wang等人6将带有嵌套提及的句子映射到指定的森林中。Ju等人22提出了一种迭代方法，在先前的模型邓力源，等：端到端的嵌套命名实体识别方法研究279Computer Engineering and Applications计算机工程与应用2023，59（7）输出中实现了序列模型。Lin等人23提出了一种头部驱动结构。Li等人24结合了Bi-LSTM-CRF网络的输出和另一个Bi-LSTM

展开阅读全文

端到端的嵌套命名实体识别方法研究_邓力源.pdf