1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering1901 电子病历概述电子病历(Electronic Medical Record,EMR)是病历的一种记录形式,包括住院病历和门诊病历,是临床辅助决策系统、保险智能理赔系统、医疗知识图谱构建、智能咨询等应用的重要电子数据支撑。如何利用自然语言处理技术从电子病历中智能分析提取信息并组织成结构化内容是当前研究的重点。电子病历分析流程如图 1 所示。其中,NER在电子病历的分析利用中起着关键作用,是数据预处理与数据应用之间的常用技术。2 相
2、关工作中文电子病历命名实体识别方法主要有三个发展阶段:基于词典、基于规则和机器学习。其中,机器学习方法通常最好,主要表现出良好的实用性和可移植性,与基于词典的方法相比,兼容性差,基于规则的方法机动性差。特别是深度学习技术被提出后,电子病历命名实体识别的深度学习方法爆炸式增长,各种创新的深度学习模型不断优化命名实体识别的准确率和召回率。基于字典、基于规则和机器学习方法的优缺点如表1 所示。2.1 基于词典方法基于词典的方法需要人工构建综合医疗词典,结合词典匹配算法(包括前向最大匹配算法、后向最大匹配算法、双向最大匹配算法等)完成电子病历命名实体的识别。其中,词典的质量和规模对实体识别的结果尤为重
3、要。大量论文证明,该方法在处理中国电子病历中包含的大量受控词、缩写、专业术语和符号实体的识别方面效果突出。词汇增强的中文电子病历命名实体识别方法邝琦贺勇(长沙理工大学电气与信息工程学院 湖南省长沙市 410000)摘要:本文对基于词汇增强的中文电子病历命名实体识别方法进行了分析。命名实体识别(NER)是自然语言处理中的基本任务。在中文命名实体识别任务中,通常可分为基于字符(字符粒度)和基于单词(单词粒度)。在命名实体识别任务的中文电子病历中,命名实体识别方法的字符粒度更为常见。词汇信息在实体识别中非常重要,但常用的方法缺少重要的词汇信息,因此采用 LEBER 方法引入词汇信息,提高中文电子病历
4、命名实体识别模型的性能。实验证明,词汇增强方法在中文电子病历命名实体识别中是有效的。关键词:命名实体识别;电子病历;LEBER;词汇增强基金项目:长沙理工大学校企合作基金(30404022264)。图 1:电子病历分析流程图数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering191目前提出的方法是提高字典质量和规模的可靠性,但许多实体对应的缩写、同义词等补充内容很难一次性和实体同时添加到字典中,并且专业字典不能包含医疗领域不断增加的新实体,因此基于字典的方法难以保证及时更新或补充实体信息
5、的兼容性和覆盖性。2.2 基于规则方法基于规则的方法与基于字典的方法不同,首先需要对需要处理的电子病历文本进行分析。再次,构建规则模板,同时规则模板需要使用在同类型文本上,通过模式匹配实现命名实体识别。基于规则的方法不仅可以纠正中文电子病历中大量的拼写错误、不规范的语法和不完整的句子结构,还可以通过规则模板的设计,在具有特殊语法和特殊语法结构的中文电子病历文本上识别命名实体。基于规则的方法直观,易于维护,不仅弥补了基于词典的方法不能识别未记录词的缺陷,而且可以处理非规范性的中文电子病历文本。但是,建立统一完整的识别规则库仍然需要大量的人力和时间成本投入,规则的可移植性较差,基于特定电子病历文本
6、构建的规则模板可能不适合在其他电子病历文本上命名实体识别。此外,由于不同医生的语言习惯或表达方式导致语言结构本身的不确定性,难以规定统一完整的规则。与基于词典的方法类似,目前很少有研究者基于规则方法单独完成电子病历命名实体的识别,将规则和词典结合在一起,辅助机器学习方法获取电子病历的文本特征,通过方法融合提高机器学习方法的效果。未来,如何将规则与机器学习方法更好的融合,提高规则方法的流动性,降低其成本投入,仍将是一个值得关注的研究问题。2.3 基于机器学习方法基于机器学习的方法使用有标签的数据进行监督学习模型训练,然后使用训练好的模型完成对命名实体的识别和预测,与基于字典的方法和基于规则的方法
7、相比,具有更好的实用性和可移植性。此外,该方法能较好地处理中文电子病历文本不规范、专业性导致的命名实体识别困难,在中文电子病历命名实体识别方面表现更好。基于机器学习方法的模型从原始输入数据中提取不同的粒度特征,如词特征提取和上下文特征提取,命名表 1:电子病历命名实体识别方法分类一级分类二级分类优点缺点模型示例基于词典实现简单1、字典的规模和质量对识别结果有显著影响。2、在时间更新中难以保证新增或补充实体信息的兼容性和覆盖性。DLAM基于规则便于维护1、需要大量人力和时间成本投入。2、规则的可移植性较差。Rule-base基于机器学习统计机器学习实用可移植-1、需要有大规模、高质量的标注数据集
8、作为训练数据。SVMHMMMECRF深度学习准确RNNLSTMBERT图 2:命名实体识别模型框架图 数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering192实体识别模型的框架如图 2 所示。2.3.1 传统机器学习方法传统机器学习包括监督、半监督、无监督学习,中文电子病历的命名实体识别通常使用监督机器学习:命名实体识别被视为分类问题,使用大量标记训练集进行模型训练,然后训练好的模型用于无标记数据的实体识别预测。关键问题是如何从电子病历的文本中提取各种有效的语法、词汇和语义特征,然后使
9、用序列注释模型识别中文电子病历的命名实体。每个模型如图 3 所示。(1)支持向量机 SVM:利用高维特征空间将问题转化为线性可分的二分类问题。通过构建最优分割超平面,最大化两个异构样本数据之间的间隔,训练一个可靠的分类器,对小样本的求解,线性不可分,高维模式识别有显著作用。优点是可以充分利用词汇、句法、上下文等多种特点,缺点是识别效率低,需要依靠大量数据进行训练,单独使用 SVM 效果不佳。(2)隐马尔科夫 HMM:是一种有向概率图模型,它利用已知的观测序列,通过求解序列和可能的标记序列之间的联合概率来推断出最优的标记序列。(3)最大熵 ME:基于最大熵原理,在满足约束条件下选择最大熵(最大不
10、确定性和最大信息量)的概率分布模型。与 HMM 相比,ME 不需要满足独立性假设,可以灵活的引入特征来提高模型的精度,它结构严谨、良好、通用。但是 ME 迭代过程的计算量巨大,计算时间复杂度高。(4)最大熵马尔科夫 MEMM:为了解决隐马尔科夫问题,在最大熵的基础上,提出了最大熵马尔科夫MEMM 来改变 HMM 中观测与隐状态的依赖关系,在计算条件概率时直接对 ME 进行建模。(5)条件随机场 CRF:它遵循马尔科夫的无向概率图模型,也是一种典型的判别模型,克服了 HMM 独立性的假设,利用全局归一化函数解决了 MEMS 注释偏置的问题。同时,CRF 通过在最后的预测标注上对句子中的字符添加有
11、效的约束,解决了 RNN、LSTM 等模型带来的无效标注问题,例如在采用 BIO 标签方案时,I标签必须在 B 后面,不同类型的 I 不会直接连接。假设给定的字符序列 x 及其对应的标签序列 y,则标签序列为 y 的概率对于给定的字符序列 x 为公式(1):(1)损失函数的形式为公式(2):(2)其中,N 表示所有可能的路径。虽然 CRF 收敛速度慢,训练难度高,但实际中的预图 3:传统机器学习模型优缺点数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering193测结果可能会导致头尾漏词或
12、多词的现象,无法处理实重叠的问题。但其优越性使得它仍然是目前最流行的电子病历命名实体的识别方法之一,通常被用作整个机器学习模型的结束部分。2.3.2 深度学习方法近年来,随着机器学习技术的发展,基于深度学习的命名实体识别也受到了极大的关注,取得了良好的识别效果。与统计机器学习相比,需要依靠研究人员手工设计特征工程,即以一系列工程方式从原始语料库中筛选出更好的文本数据特征,提高模型的训练效果,深度学习是端到端的,能够自动找到更深更抽象的特征。深度学习的关键在于如何设计和使用各种神经网络模型,在词向量的基础上识别医学命名实体。(1)CNN:卷积神经网络通常用于从文本中提取有用的语义特征来辅助实体边
13、界划分,它强大的特征捕捉能力使句子在建模过程中通过下层相邻信息的重复组合和向上传递,学习距离较远的句子之间的联系。(2)RNN:循环神经网络可以通过神经元之间的参数共享来处理任意序列长度的文本信息,但存在梯度消失和梯度爆炸等问题,变体门控循环单元 GRU(Gate Recurrent Unit)和 长 短 期 记 忆 网 络 LSTM(Long Short Term Term Memory Network)对其进行了改进。(3)BERT:预训练的深度双向变压器语言理解模型由 12 层网络组成,隐藏层维度为 768,包含 12 个头,总参数为 110 m,是海量语料经过无监督学习得到的预训练语言
14、表示模型,由 Google AI 团队于 2018 年 10 月提出,应用于自然语言处理的各个领域。BERT是一种可用于其他模型进行迁移学习的模型,它使用掩蔽语言模型、双向 Transformer 和句子级别的负采样来充分描述字符级、词级、句子级和句子级之间关系的特点。3 LEBERT模型为了在模型中引入词特征,LEBERT 设计了一个字符词对结构,对于输入文本中的每个字符,在输入文本中找出它所匹配的所有词。对于下图的输入文本“美国人”,“美国”这个人物所匹配的词是“美国人和美国图 4:引入词汇信息的模型结构图图 5:词典适配层结构数据库系统设计Database System Design电子
15、技术与软件工程Electronic Technology&Software Engineering194人”,“国家”这个人物所匹配的词是“美国人、美国人和中国人”等等。其中,将事先构建一个字典树(trie树)对输入序列中的词进行匹配,然后得到每个字符对应的词序列。介绍词汇信息的模型结构如图 4 所示。字典适配层 Lexicon 适配器大致可以分为以下几个步骤:维度对齐:将词向量与字符向量对齐。权重计算:对于每个字符,计算它所匹配的每个词向量的权重。加权求和:对于每个字符,对词向量进行加权求和,得到该字符的加权词向量。特征融合:将字符向量与加权词向量相加,得到Lixicon Adapter 的
16、输出。字典适配层 lexicon 适配器流程图如图 5 所示。ALBERT 模型架构图如图 6 所示。与 BERT 相比,LEBERT 有两个主要差异。首先,由于中文句子转换成字符-词对序列,LEBERT 以字符和字典特征作为输入。其次,在变压器层之间增加字典适配器,允许字典知识有效集成到 BERT 中。4 实验结果与分析4.1 实验数据集本 次 实 现 的 数 据 集 为 CMeEE(Chinee Mathematic Entity Extraction),训 练 集 数 据 15000,验 证 集 数 据5000,测试集数据 3000。包含九大类医疗实体。4.2 序列标注方法在命名实体识别任务中,常用的标注方法有三种:BIO、BIOS、BIOES。数据集采用 BIO 注释。共有9 类实体,共有 28 个标签。4.3 评价指标该实验评价指标为 F1 值。各指标的公式为:图 6:ALBERT 模型架构图数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering195 (3)(4)(5)