1、基于多头注意力机制的医学文本实体研究沈同平,俞磊,束建华,方芳,王元茂(安徽中医药大学 医药信息工程学院,安徽 合肥 230012)摘要:医学文本实体识别过程存在多义性和复杂性等特点,这导致传统的语言处理模型无法有效获取医学文本语义信息,从而影响了医学实体识别效果。本文提出了一种基于全词MASK的医学文本实体识别模型,其能有效处理中文文本。其中,BERT预处理层能够生成表征上下文语义信息的词向量,Bi-LSTM层对输入的词向量进行双向特征信息提取,注意力机制层对输出的特征向量进行权重分配,从而有效获取文本语句中的长距离依赖,最后通过CRF解码以生成实体标签序列。实验结果表明,该模型在中文简历语
2、料库和CCKS2017语料库中表现优异,F1值分别为96.14%和92.68%。关键词:命名实体识别;深度学习;多头注意力;BERT中图分类号:TP391文献标志码:A文章编号:1007-4260(2023)01-0085-07Chinese Medical Entity Recognition Based on Multi-HeadAttention MechanismSHEN Tongping,YU Lei,SHU Jianhua,FANG Fang,WANG Yuanmao(School of Medicine and Information Engineering,Anhui Univ
3、ersity of Chinese Medicine,Hefei 230012,China)Abstract:In the process of medical text entity recognition,due to the polysemy and complexity of medical entities,tradi-tional language processing models cannot effectively obtain medical text semantic information,which affects the effect ofmedical entit
4、y recognition.In this paper,we propose an entity recognition model based on whole-word MASK,which can ef-fectively process Chinese text.The BERT preprocessing layer can generate word vectors characterizing contextual semantic in-formation.The Bi-LSTM layer extracts bi-directional feature information
5、 from the input word vectors,and attention mecha-nism layer carries out weighting on the output feature vectors to effectively obtain long textual statements.To effectively ob-tain the long-range dependencies in text utterances,it finally decoded by CRF to generate entity label sequences.The experi-
6、mental results show that the model achieves excellent performance in the Chinese resume corpus and the CCKS2017 corpuswith F1 values of 96.14%and 92.68%respectively.Key words:named entity recognition;deep learning;multi-head attention;BERT随着国家医疗信息的快速发展,医学文本数量呈现爆炸式增长,其中包含了大量的实体信息,具有重要的研究价值。相对于普通文本,医学
7、文本具有相对固定的实体类型,如症状、疾病名称、检查手段和方式等。这些实体数量众多、类型丰富、长度变化多样,且实体结构存在别名、缩写词等问题,造成了医学文本实体识别准确率不高的问题。2023年2月第29卷第1期安庆师范大学学报(自然科学版)Journal ofAnqing Normal University(Natural Science Edition)Feb.2023Vol.29 No.1DOI:10.13757/34-1328/n.2023.01.015收稿日期:2021-08-14基金项目:安徽省高校优秀青年骨干人才国外访学研究项目(gxgwfx2019026),安徽省质量工程项目(20
8、17mooc223,2020jyxm1018,2020jyxm1029),安徽省高校自然科学研究重点项目(KJ2020A0443),安徽中医药大学教研项目(2018xjjy_zd006,2020 xjjy_yb002,2021zlgc046)和安徽中医药大学自然科学重点项目(2020zrzd18,2020zrzd17,2019zrzd11,2018zryb06)作者简介:沈同平(1986),男,安徽无为人,安徽中医药大学医药信息工程学院副教授,研究方向为中医药信息化。E-mail:安庆师范大学学报(自然科学版)2023年近年来,传统的词典方法、机器学习和深度学习等广泛应用于实体识别任务。基于词
9、典和规则的方法过多依赖于语言学家所制定的规则模板,其程序繁琐,容易产生错误,移植性差。而传统机器学习方法对于命名实体识别需要大规模的语料库来训练标注模型,且在特征提取方面仍需人工参与,其高度依赖语料库标注的质量。Hammerton最早将长短期记忆网络(LSTM)应用到文本实体识别研究中,并取得了良好的识别效果,且LSTM-CRF结构成为了实体识别的基础结构1。高翔等提出了条件随机场(CRF)与长短期记忆网络(LSTM)相结合的LSTM-CRF模型,并通过加入预先训练的字嵌入向量及不同词位标注集以对军事动向文本进行实体识别2。Lample等在LSTM-CRF基础上,提出了双向长短期记忆网络和条件
10、随机场结合的模型,其表现优异,在CoNLL-2003数据集中F1值达到90.94%3。廉龙颖构建了Bi-LSTM+CRF模型,可识别网络空间安全领域中12类命名实体4。徐凯等通过权重的方式将词典匹配结果和注意力机制进行结合,在NCBI疾病和BC5CDR化学数据集上取得了不错的成绩5。上述方法只能处理独立的字符、词语的特征向量,无法处理一词多义的问题,从而导致实体识别准确率不高。2018年,Goolge团队结合不同语言模型的优点提出了BERT模型6,其采用双向Transformer神经网络作为编码器,可增强预训练词向量模型的泛化能力,能充分描述字符、词语和语句之间的关系特征。可以参考前后双向的输
11、入信息来对下个字进行预测,从而表征不同语境中相同词的语义,有效解决了一词多义的问题。任秋彤等以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入词性和领域特征,从而能够捕捉句子中远距离词语的约束关系7。申晖等提出了一种基于BSTTC模型的中文命名实体识别方法,取得了较好的预测结果8。针对警情领域的关键实体信息难以识别问题,王月等提出了一种基于BERT的神经网络模型用于识别和提取相关命名实体,且针对不同案例设计了相应的实体标记注规范9。廉龙颖等在BiLSTM-CRF模型基础上利用BERT模型来提取上下文特征,并标注了12类命名实体,在网络空间安全语料库中取得了不错表现10。
12、因此,本文在BERT 模型结构基础上,提出一种改进的医学文本识别方法。首先,将BERT预训练模型应用到中文实体识别任务中,然后将训练结果作为BiLSTM-CRF层的输入,可减少模型训练工作量并提升模型速度;其次,全词MASK模型能够预测整个词语,使BERT模型可以学习词的边界以致于更好地表征整个词语的语义信息;最后,在BiLSTM层和CRF层之间增加多头注意力层(MHA),能够有效获取文本语句中的长距离依赖,从而提升模型识别效果。1BERT-BiLSTM-MHA-CRF模型1.1模型概述本文提出的BERT-BiLSTM-MHA-CRF模型结构如图1所示,总共由四个模块组成。其中,BERT层将输
13、入的文本经过预训练来生成动态词向量,并将得到的词向量信息作为BiLSTM层的输入以进行双向训练,从而进一步提取文本特征。注意力机制主要在BiLSTM层输出结果中提取对实体识别起关键作用的特征信息,并对上层输出特征向量进行权重分配,从而突出对实体识别起关键作用的特征并忽略无关特征。通过权重检查,直接评估哪些嵌入是特定下游任务的首选嵌入。此外,CRF层根据标签之间的约束关系进行建模,然后输出最可能的标签序列。1.2BERT模型自然语言处理需要将文本信息转化为相应的词向量,然后嵌入到相应模型中。比较常用的语言模型有one-hot、Glove、Word2Vec和GPT等,这些模型训练出的词向量属于静态
14、向量,无法解决一词多义的问题,如“身高1.75 m的他能够扣篮,太优秀了!”和“身高2.15 m的他不会扣篮,太优秀了!”两句话中,在传统语言处理时2个“优秀”词向量是一样的,无法区别不同含义,从而直接影响实体的识别效果。此外,GPT语言模型属于单向模型,其能够表示一词多义,但是无法获取词的前后文信息。2018年,Goolge团队结合不同语言模型的优点,提出了BERT模型。该模型采用双向Transformer神经网络作为编码器,并 86第1期利用MASK语言模型来进行预训练,其对下个字的预测可以参考前后双向的输入信息,可以有效解决一词多义的问题。CRF层LabelnLabel3Label2La
15、bel1Multi-HeadAttention注意力层LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMBiLSTM层Bert嵌入层Bert层输入层EnE1E2E3X1X2X3Xn图1BERT-BiLSTM-MHA-CRF模型框架BERT模型具有很强的语义获取能力,可以提高实体图关系识别和提取的能力。为了更好地进行中文文本实体识别,本文BERT模型采用了全词MASK方法。传统BERT模型以字符为单位进行文本切分,将一个完整的词切分为若干个子词,在模型训练时,子词会被随机MASK,如果词中部分被MASK,那个整个词语都会被MASK,故而更加符合中文文本处理习惯。经过BERT模型训练
16、输出的词向量由三部分组成,即字向量、句向量和位置向量(图2)。通过查找字向量表,将输入的字符转换为字向量形式。句向量表示句子的语义信息以区分不同语句。位置向量可以区分不同语句中不同位置字的语义信息,并通过BERT预训练模型可以获取含有丰富语义特征的文本序列向量。其中,CLS特殊标记表示文本序列的开始,SEP特殊标记表示句子间的间隔或文本序列的结束。输入字向量句向量位置向量CLS实体识别SEPSEP语言ECLSE实E体E识E别ESEPE语E言ESEPEAEAEAEAEAEBEBEBEBE1E2E3E4E5E6E7E8E9图2BERT词向量表1全词MASK原始文本待分词文本原始MASK输入全词MASK输入实体识别是关键实体识别是关键MASK体识别是MASK键MASKMASK识别是MASKMASK沈同平,俞磊,束建华,等:基于多头注意力机制的医学文本实体研究 87安庆师范大学学报(自然科学版)2023年1.3BiLSTM模块长短期记忆网络(Long-Short Term Memory,LSTM)是一种特殊的循环神经网络,由输入门、遗忘门和输出门三部分组成。LSTM能够运用门控机制来实现网络的