1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023融合词语信息的细粒度命名实体识别曹晖1徐杨1,2*1(贵州大学大数据与信息工程学院贵州 贵阳 550025)2(贵阳铝镁设计研究院有限公司贵州 贵阳 550081)收稿日期:2020 07 29。贵州省科技计划项目(黔科合 LH 字 2016 7429 号);贵州大学引进人才项目(2015-12)。曹晖,硕士生,主研领域:自然语言处理。徐杨,副教授。摘要针对基于字级别的命名实体识别方法无法充分利用句子词语信息的问题,提出一种融合词语
2、信息的细粒度命名实体识别模型。该模型通过引入外部词典,在基于字表示中融入句子潜在词语的信息,避免了分词错误传播的问题,同时构建了一种增强型字向量表达;利用扁平化的 Lattice Transformer 网络结构对字和词语的表示以及位置关系信息进行建模;通过 CF(Conditional andom Filed)计算得到最优标签序列。在细粒度命名实体语料 CLUENE2020 上进行了实验,精确率达到82 46%,召回率达到83 14%,F1 值达到82 80%,验证了融合词语信息可以提升细粒度命名实体识别效果。关键词词语信息细粒度实体识别扁平化 Lattice TransformerBET中
3、图分类号TP391 1文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 036FINE-GAINED NAMED ENTITY ECOGNITION BASED ON WODS INFOMATIONCao Hui1Xu Yang1,2*1(School of Big Data and Information Engineering,Guizhou University,Guiyang 550025,Guizhou,China)2(Guiyang Aluminum Magnesium Design esearch Institute Co,Ltd,Guiyan
4、g 550081,Guizhou,China)AbstractAiming at the problem that the character-level named entity recognition method cannot make full use of thewords information in the sentence,we propose a fine-grained named entity recognition model that integrates wordsinformation By introducing an external lexicon,the
5、model incorporated the information of potential words in thecharacter-based representation,avoiding the propagation of words segmentation error,and an enhanced word vectorexpression was constructed Using the flat lattice transformer network structure to model the characters representation,the words
6、representation and the position relationship informationThe optimal tag sequence was calculated byconditional random filed(CF)The experiments were conducted on the fine-grained named entity corpus CLUENE2020The results show that the accuracy rate reaches 82 46%,the recall rate reaches 83 14%,and F1
7、value reaches8280%,which verifies that the fusion of word information can improve the effect of fine-grained named entity recognitionKeywordsWords informationFine-grained entity recognitionFlat lattice transformerBET0引言命名实体(Named Entity,NE)概述为包含人名、地名、组织机构名、特定领域专有名词等的短语1。命名实体识别(Named Entity ecognitio
8、n,NE)是自然语言处理核心基础任务之一,它的目标是准确划分实体边界并将其正确分类。NE 采用的传统机器学习研究方法包括隐马尔可夫模型、最大熵模型和条件随机场等,但这些方法通常都需要领域专业知识和进行大量人工特征标注工作2 3。近年,基于深度神经网络的方法显著提升了自然语言处理任务的效果。词向量工具的出现实现了字转化为稠密向量的功能,词向量比人工选择的特征蕴含更丰富的语义信息,有助于提升下游任务的性能。word2vec4、GloVe5 和 BET6 在 NE 任务中被广泛236计算机应用与软件2023 年应用,明显地提升了整体模型的训练效率。长短期记忆网络7(Long Short Term M
9、emory,LSTM)在处理长序列标注任务上有更好的表现,它解决了循环神经网络8(ecurrent Neural Networks,NN)在训练过程中易发生梯度消失和梯度爆炸的问题。基于 LSTM+CF9 构建的端到端的模型在英文命名实体识别任务中取得了较好的成绩。细粒度命名实体识别任务旨在更精细地识别出非结构化文本中的实体类型,这对实体边界划分以及如何充分利用文本潜在词语的信息提出更高要求10。最近,将字符信息嵌入到词向量表示中的英文 NE 模型获得很大的效果提升。与英文不同,中文文本没有明确的词语划分边界,一种直观的做法是先进行分词,再进行序列标注工作。可是一旦分词有误,这种错误会传播到
10、NE 中,影响模型的识别性能11。针对以上问题,本文提出一种融合词语信息的中文细粒度命名实体识别模型。通过将句子与外部词典进行匹配,映射获取到句中潜在的词语信息,再将这部分信息嵌入到字级别的表示中形成网格结构。与单纯基于字的方法相比,这种结构不仅包含更多语义信息而且避免了分词错误传递的问题;通过 Self-Attention计算权重的机制可捕获句中任意元素间的关系信息。在细粒度实体语料 CLUENE2020 上验证了本文模型的有效性。1相关研究1 1Lattice LSTMZhang 等12 首次提出 Lattice LSTM 模型用以解决命名实体识别问题,其结构如图 1 所示。图 1Latt
11、ice LSTM 结构LSTM 的输入是字序列 c1,c2,cm 和所有存在于词典中的词语 wb,e组成的网格结构数据。cj表示句中第 j 个字,wb,e表示在句子中索引从 b 开始到 e 结束的词。xci和 xwb,e表示字向量与词向量,ccj用于记录从句子开始到 xci的循环信息流,cwb,e记录每个 xwb,e的递归状态,hci表示隐含层的输出,用于 CF 序列标注。对于 ccj,在此模型中有更多信息输入其中,如 cc3的输入包括 xc3(“市”)和 cw1,3(“南京市”)。为了将所有cwb,e,b bwdb,eD 关联到 cce,为每个 cwb,e添加了如式(1)的附加门用于控制 c
12、wb,e到 ccb,e的信息流。icb,e=wlTxcecwb,e+b l(1)ccj是字信息融合了潜在单词后的信息流,其计算式为:ccj=b b|wdb,jDcb,jcwb,j+cjccj(2)式中:D 表示中文词典;cb,j和 cj表示门值 icb,j和 icj的归一化值。cb,j和 cj的计算式为:cb,j=exp(icb,j)exp(icj)+b b|wdb,jDexp(icb,j)(3)cj=exp(icj)exp(icj)+b b|wdb,jDexp(icb,j)(4)1 2TransformerTransformer 是 Encoder-Decoder 网 络 结 构。En-co
13、der 包括 Self-attention 和 Fully connected feed-forward两个子层。Decoder 比 Encoder 多一层 Encoder-Decod-er Attention。每一子层都附加了残差连接和正则化。Encoder 结构如图 2 所示。图 2Encoder 结构Self-Attention13 是 Encoder 结构以及 Transformer的核心组件,如式(5)所示。其思想是要从特征向量中学习到每一个元素对其余元素的影响程度,通过这种机制得到每个元素考虑了全局信息之后的新表达。Att(Q,K,V)=SoftmaxQKTd()kV(5)第 3
14、期曹晖,等:融合词语信息的细粒度命名实体识别237式中:当给定输入向量 X,Q=XWQ、K=XWK、V=XWV,WQ、WK、WV是可训练参数,Xn d,WQ、WKn dk,WVn dV,dk是 K 的维度。Transformer 中使用了多头注意力机制处理输入向量,然后将每头注意力的计算结果拼接和线性变换。这样做不仅扩展了模型关注不同位置的能力,而且给注意力层带来更多“表示子空间”。为了使 Transformer 可以捕捉输入序列的字顺序信息,在输入向量中加入了位置编码(Positional Enco-ding)用来对序列中的元素位置以及任意两个元素之间的距离建模。第 j 个元素位置编码 p
15、可表示为:p(j,2i)=sin(j/10 0002i/d)p(j,2i+1)=cos(j/10 0002i/d)(6)式中:i 表示字或词的维度;d 表示模型的维度。2命名实体识别模型本文提出的模型结构如图 3 所示,可分为三个部分,输入部分为词向量与基于 BET-wwm 构建的增强型字向量拼接而成的数据,经过扁平化的 LatticeTransformer 对输入及相关位置信息进行编码,最后通过 CF 层计算出最大概率标签。图 3模型结构2 1融合词语信息的特征表示模型的输入向量包含词向量表示和字向量表示。词向量通过词典匹配的方式获取,即将输入的语句与中文词典进行匹配获取到句中潜在的词语集合
16、,再通过查找预训练的向量矩阵,映射得到每个匹配词语的向量表示。BET 具有强大的语义表征能力,其内部的双向Transformer 网络结构可结合字左右两侧的上下文,动态地获取字的深层语义。但 BET 是以字为单位对中文语料进行训练的,没有考虑到中文分词。BET-wwm使用哈工大 LTP 分词,在训练时对组成一个词语的全部字都 Mask,因此该模型更适合处理中文任务。基于BET-wwm,本文构建一种增强型字向量表示方法,用以将句中潜在的分词信息加入到字向量中。如图 4 所示,将词语集合 “南京”,“长江”,“长江大桥”,“大桥”按照 B,I,E,S 的格式归类到每个字,其中:B 集合包含以当前字作为开头的词语;I 集合包含当前字在词内部的词语;E 集合包含以当前字作为结尾的词语;S 集合包含当前字,如果集合中没有匹配的词语则用 None 表示。通过式(7)计算得到每个字对应的分词集合的向量表示 es(B,I,E,S):es(B,I,E,S)=vs(B)vs(I)vs(E)vs(S)(7)vs(S)=1ZwSz(w)ew(w)Z=wBIESz(w)(8)式中:vs(S)代表 S 集合中所有