1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期摘要:为避免实体与关系独立抽取产生的误差累计及实体重叠问题,提出一种基于BERT和非自回归的联合抽取模型来进行医疗知识抽取。首先,通过BERT预训练语言模型进行句子编码;然后,采用非自回归(NAR,Non-autoregressive)的方法实现并行解码,抽取关系类型,并根据头尾实体的位置索引抽取实体,得到医疗实体的关系三元组;最后,将抽取出的实体和关系导入Neo4j图数据库中实现知识可视化。通过对电子病历中的数据进行人工标注得到数据集,实验结果表明,基于BERT和非自回归联合学习模型的F1值为0.92,pr
2、ecision值为0.93,recall值为0.92,与现有模型相比3项评价指标均有提升,表明本文方法能够有效抽取电子病历中的医疗知识。关键词:联合学习;非自回归;BERT;实体重叠;电子病历中图分类号:TP391.1文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.020Medical Knowledge Extraction Based on BERT and Non-autoregressiveYU Qing,MA Zhi-long,XU Chun(School of Information Management,Xinjiang University o
3、f Finance and Economics,Urumqi 830012,China)Abstract:In order to avoid the problems of error accumulation and entity overlap caused by the pipeline entity relation extractionmodel,a joint extraction model based on BERT and Non-autoregressive is established for medical knowledge extraction.Firstly,wi
4、th the help of the BERT pre-trained language model,the sentence code is obtained.Secondly,the Non-autoregressive methodis proposed to achieve parallel decoding,extract the relationship type,extract entities according to the index of the subject andobject entities,and obtain the medical triplet.Final
5、ly,we import the extracted triples into the Neo4j graph database and realizeknowledge visualization.The dataset is derived from manual labeling of data in electronic medical records.The experimentalresults show that the F1 value,precision and recall based on BERT and non-autoregressive joint learnin
6、g model are 0.92,0.93and 0.92,respectively.Compared with the existing model,the three evaluation indicators have been improved,indicating that theproposed method can effectively extract medical knowledge from electronic medical records.Key words:joint learning;non-autoregressive;BERT;entity overlap;
7、electronic medical record文章编号:1006-2475(2023)01-0120-07收稿日期:2022-03-11;修回日期:2022-06-06基金项目:新疆维吾尔自治区自然科学基金资助项目(2019D01A23);新疆维吾尔自治区高校科研计划项目(XJEDU2021Y038)作者简介:于清(1997),女,山东烟台人,硕士研究生,研究方向:信息处理与管理决策,E-mail:;马志龙(1977),男,新疆乌鲁木齐人,讲师,硕士,研究方向:自然语言处理,E-mail:;徐春(1977),女,新疆乌鲁木齐人,教授,博士,研究方向:自然语言处理,E-mail:。0引言实体
8、识别和关系抽取是信息抽取领域中的核心任务,而医疗领域相对于其他领域,具有实体和关系数量较多、种类繁杂、命名不规则等难点1。如何从医疗文本中提取知识是医疗领域的热点问题。电子病历中蕴含着大量真实且与病人密切相关的医疗信息,从中有效提取实体及其关系,对构建医疗知识图谱、医疗问答、辅助决策具有重要的现实意义2-4。目前,在实体关系抽取任务中,基于循环神经网络5和卷积神经网络6等神经网络技术7-8的深度学习架构日渐成熟,并逐渐被应用于医疗领域中。Uzuner等9根据出院摘要,首次对医疗语义关系进行分类研究。Sunil等10首次将 CNN 模型运用到电子病历的关系抽取中,但此方法不适于距离较远的实体间的
9、识别和抽取。2019年,谷歌基于 Transformer模型提出了BERT网络模型11,并且在关系抽取的相关工作中取得了良好效果。为进一步提高关系抽取的效果,一些学者开始融合多种方法进行实体识别和关系抽取。Zhang等12在 BERT 模型的基础上,提出了基于 Bi-LSTM-CRF的关系抽取优化方法,成功从临床乳腺癌文档中提取出相关概念及属性。Christopoulou等13引入注意力机制和Transform网络,实现药物-药物在句子内和句子间关系的提取和分类。武小平等14针对中文以词为单位的特性,提出了改进的 BERT(wwm)-CNN 模型,实现心血管疾病领域的实体识别及关系抽取。李丽双
10、等15针对位置向量噪声和语义表达匮乏等问题,提出了基于BiLSTM-CNN的关系抽取模型,取得了i2B2/VA语料的最优结果。基于BERT和非自回归的医疗知识抽取于清,马志龙,徐春(新疆财经大学信息管理学院,新疆 乌鲁木齐 830012)2023年第1期以上方法均将实体识别和关系抽取分开处理,属于流水线方法,虽然取得了较好的成果,但这些方法忽视了 2 个子任务之间的相关性,会产生误差传播16,最终影响关系抽取的效果。为解决此问题,相关学者将 2个子任务融合成一个任务,进行联合学习。Getoor等17提出了一种基于线性规划的全局推理方法,运用分类器抽取句子中可能存在的实体和关系,指出实体识别和关
11、系抽取是密切相关的。联合学习方法可以分为参数共享和序列标注2种,且大多数研究集中在通用领域。Miwa等18首次将实体识别和关系抽取作为一个任务进行研究,提出了结合树结构的 BiLSTM-RNN 模型,通过二者参数共享进行关系抽取,但存在实体冗余问题。Zheng等19提出了一种基于序列标注的联合学习模型,有效地缓解了参数共享方法存在的实体关系冗余问题。Xu等20将关系抽取问题视为序列标注问题,采用BiLSTMs-CRF相结合的深度学习模型,高效地检测出医学概念-属性关系对。Parsaeimehr等21提出了一种基于深度学习的联合识别体系,克服了误差传播的影响。以上联合学习方法虽然提高了实体关系抽
12、取的效果,但均无法解决重叠三元组问题。电子病历中包含大量半结构化和非结构化信息,文本中的三元组重叠可以分为2类:EPO指一个实体对之间具有多种关系,例如“患者因反复腹痛,伴反酸、嗳气在我院完善相关检查后确诊胃体胃窦癌。”中存在三元组(胃体胃窦癌,症状,腹痛)、(胃体胃窦癌,并发症,腹痛);SEO指一个实体存在于多个三元组中,例如“患者患胃窦溃疡,因中下腹疼痛进行胃镜检查。”句子中存在三元组(胃窦溃疡,检查,胃镜)、(胃窦溃疡,症状,中下腹疼痛),这种多种关系和共享实体的存在增加了知识抽取任务的难度,传统方法很难学习这种关系。为解决三元组重叠问题,Wei等22提出了CASREL模型,采用级联二进
13、制标注方法,将关系推理建模为句子中头实体到尾实体的映射函数,但存在曝光偏差问题。Wang 等23提出了TPLinker模型,采用多头标注方法实现了单阶段联合学习,能够解决实体重叠和暴露偏差问题,但该方法需要设计复杂的标注模式。Zeng等24提出了一种基于复制机制的seq2seq模型,可以利用该机制对重叠的实体进行复制,并根据不同的实体重叠类型,采用统一解码器和多个解码器进行解码,能够有效解决关系抽取中的实体重叠问题,但会产生大量无效的实体对。Cabot等25将三元组分解成文本序列,以自回归方法为基础,提出了基于BART的联合学习模型,但采用自回归解码的方法,需要考虑多个三元组的提取顺序,而文本
14、中的三元组本质上没有顺序。本文以 seq2seq 模型为框架,运用基于 BERT 和非自回归的联合学习模型实现实体识别和关系抽取,并构建医疗知识图谱。本文主要工作如下:1)BERT预训练语言模型结合上下文语义信息动态生成特征向量,能够有效解决电子病历中的一词多义问题。2)采用基于Transformer的非自回归方法实现并行解码,并根据头尾实体开始和结束的位置索引进行标记,能够有效缓解三元组重叠问题。3)运用电子病历数据进行实验分析,结果表明,本文提出的基于BERT和非自回归的知识抽取方法,效果优于现有模型。1模型介绍本文将实体识别和关系抽取看作一个任务进行联合学习,模型结构如图1所示,主要包括
15、3个部分。首先运用BERT模型对句子进行编码;然后运用基于Transformer的非自回归方法解码,根据解码结果进行关系预测(包括共有6种关系类型),并进一步融合编码信息进行实体抽取;最后,根据二部匹配损失函数计算损失值。联合实体关系抽取的目标是识别原始句子中所有可能的关系三元组,对于给定句子X,目标三元组Y的条件概率如式(1)所示:BERT编码层非自回归解码层二部匹配损失函数多头自注意力机制BERT多头相互注意力机制前馈神经网络关系抽取实体抽取患 者 患 胃 窦 溃 疡,因 中 下 腹 疼 痛 进 行 胃 镜 检 查。(胃窦溃疡,症状,中下腹疼痛)空集(胃窦溃疡,检查,胃镜)r1r2GHN(
16、s1,r1,o1)(s2,r2,o2)sendsstarto1starto1endo2starto2end图1模型结构于清,等:基于BERT和非自回归的医疗知识抽取121计算机与现代化2023年第1期因胃窦溃疡行胃镜检查检查胃窦溃疡胃镜EncoderDecoderP(Y|X;)=pL(n|X)ni=1p(Yi|X,Yji;)(1)其中,pL(n|X)对目标三元组的大小进行建模,i表示句子中三元组数量,p(Yi|X,Yji;)表示目标三元组Yi不仅与给定的句子X相关,还与其他三元组Yji相关。1.1BERT编码层BERT模型主要包含输入层、编码层和输出层,其基本结构如图 2 所示。BERT 的输入向量由词特征、句子特征和位置特征组成,且句首、句尾分别增加CLS和SEP标志,用于分隔2个句子。编码层由多个相同的Transformer层组成,向量通过多头自注意力(Multi-Head Self-Attention)层,传输到前馈神经网络(Feed-Forward Network)中,最终的输出结果表示为:HeRld其中,l是句子长度,d是BERT模型中隐藏层数量。BERT 模型是基于双向 T