1、2023,59(16)电子病历(electronic medical record,EMR)是医疗数字化建设的重要成果之一,是医疗机构对门诊、住院患者进行临床治疗和指导干预的数字化医疗服务工作记录,其中包含了大量患者的医学信息,是重要的医疗数据资源。但电子病历由大量的非结构化和半结构化数据构成,难以直接应用于计算机。前期通过人工提取文本信息的方式,费时费力且准确率低,导致电子病历文本没有得到很好的使用。随着深度学习的发展,尤其是在自然语言处理(nature language processing,NLP)领域的突破,为电子病历文本信息的提取提供了可靠的技术支持。信息抽取(information
2、 extraction,IE)技术作为NLP领域的一个重要分支,其目的就是从非结构化文本中提取能被机器或者程序直接使用的结构化信息,内容主要包括命名实体识别(named entity recognition,NER)、关系抽取(relation extraction,RE)和事件抽取(event extraction,EE)。关系抽取作为信息抽取的关键任务,其目的是检测、提取出实体间的特定类型关系。进而实现医疗文本从非结构化向结构化的转换。这种结构化数据是统计分析、信息挖掘、临床决策支持、医疗领域知识图谱构建以及医疗问答系统开发的重要基础性支撑。本文首先从关系抽取的概念和电子病历的特点出发,详
3、细介绍了电子病历关系抽取任务的内容,对当下关系抽取的研究做了详细分类。然后系统地总结了电子病历关系抽取任务的发展,分析了不同阶段关系抽取方法的优点以及局限性。最后对未来的研究方向进行电子病历关系抽取综述王辰,李明,马金刚山东中医药大学 智能与信息工程学院,济南 250355摘要:信息抽取在电子病历上的应用取得丰富的研究成果,使得非结构化的生物医学数据得以利用。关系抽取是信息抽取的重要子任务,是从数据转化为知识的桥梁。根据关系抽取存在的不同问题以及不同解决方案,对关系抽取进行详细分类。整理了电子病历关系抽取领域的相关评测任务和具有代表性的数据集。分阶段对关系抽取在电子病历文本上的应用进展进行综述
4、,重点介绍了深度学习方法在关系抽取上的广泛应用,以及现阶段预训练模型在电子病历关系抽取任务上的进展。对该领域进行展望,提出了未解决的问题以及未来的研究方向。关键词:电子病历;关系抽取;深度学习;预训练模型文献标志码:A中图分类号:TP391.1;TP18doi:10.3778/j.issn.1002-8331.2209-0366Review of Relation Extraction in Electronic Medical RecordsWANG Chen,LI Ming,MA JingangCollege of Intelligence and Information Engineer
5、ing,Shandong University of Traditional Chinese Medicine,Jinan250355,ChinaAbstract:The application of information extraction to electronic medical records has yielded rich research results,enablingthe utilization of unstructured biomedical data.Relation extraction is an important subtask of informati
6、on extraction and abridge from data to knowledge.This paper provides a detailed classification of relation extraction based on different prob-lems and different solutions of relation extraction.Relevant review tasks and representative datasets in the field of relationextraction for electronic medica
7、l records are collated.The progress of the application of relation extraction on electronicmedical record texts is reviewed in stages,focusing on the wide application of deep learning methods on relation extrac-tion and the progress of pre-trained models on the task of electronic medical record rela
8、tion extraction at this stage.Finally,an outlook on the field is provided,highlighting the unresolved issues and future research directions.Key words:electronic medical records;relation extraction;deep learning;pre-trained model基金项目:山东省研究生优质教育教学资源项目(SDYAL2022041)。作者简介:王辰(1996),男,硕士研究生,CCF学生会员,研究方向为自
9、然语言处理、信息抽取;李明(1978),男,硕士,教授,研究方向为中医药智能化;马金刚(1980),通信作者,男,副教授,研究方向为医疗健康大数据,E-mail:ma_。收稿日期:2022-09-22修回日期:2023-03-14文章编号:1002-8331(2023)16-0063-11Computer Engineering and Applications计算机工程与应用63Computer Engineering and Applications计算机工程与应用2023,59(16)探讨与展望,并总结全文。本文对该领域最新研究进展进行综述,希望能为后续研究者梳理电子病历关系抽取的发展脉
10、络,提供电子病历关系抽取任务的技术方法参考,对医疗领域信息抽取以及医疗智能化能有一定的借鉴和推动意义。1电子病历关系抽取任务简介1.1电子病历简介电子病历是指医务人员利用医院信息系统(hospitalinformation system,HIS)撰写的针对患者医疗活动的记录1,主要包括文字、符号、图表、图形、数据、影像等数字化信息,其中自由文本是信息抽取的主要对象。电子病历的文本信息由叙述性数据构成,包括门诊记录、住院记录、病程记录、主诉、现病史、既往史、检查报告、出院记录等非结构化数据。门诊记录和住院记录中包含患者的基本信息,由于其中涉及到大量患者隐私,使用之前需要对隐私信息进行处理;出院记
11、录完整记录了患者的全部治疗过程,包括检测结果和治疗效果的记录2;病程记录主要记录治疗过程中患者不同阶段的临床表现、检查内容及结果和治疗等医疗活动过程;主诉、现病史和既往史包含患者自述本次所患疾病的情况,以及历次所患疾病的情况,内容都包含在出院记录和病程记录里;检查报告包括患者就诊期间进行的各项检查项目以及检查结果。出院小结和病程记录是电子病历中最重要的两部分,基本囊括了患者在整个就医过程中的全部信息,是信息抽取的重点内容。电子病历信息抽取的过程如图1所示。1.2关系抽取的概念关系抽取用于检测和分类识别实体之间的语义关系。关系抽取任务是信息抽取的重要组成部分,最早由信息理解会议(message
12、understanding conference,MUC)引入3,此后关系抽取在通用领域中取得了诸多研究成果,但在电子病历上一直没有得到应用。2010年由美国国家集成生物与临床信息学研究中心(Informatics forIntegrating Biology and the Bedside,I2B2)发布了基于英文电子病历的医学实体关系抽取任务4,在该任务中把电子病历中的实体分为三类:疾病以及症状构成的医疗问题类,对于疾病做的治疗类以及检查类。定义了三大类实体之间的关系:医疗问题-治疗、医疗问题-检查和医疗问题-医疗问题之间的关系。这三大类关系又被细分为八个子类,如表1所示。自此针对电子病历
13、关系抽取的研究被越来越多的研究者关注,I2B2 2010数据集也成为电子病历关系抽取领域的经典数据集。关系抽取的目的是检测实体对之间是否存在预先指定的关系类型,并提取出对应的关系,以(主体(subject),关系(predication),客体(object)三元组的形式呈现。例如在文本“高血压病史 10 年余,目前口服苯磺酸氨氯地平、厄贝沙坦氢氯噻嗪治疗”中,需要提取三元组(高血电子病历文本患 者 3 月 前 因“直肠癌”在我院 于 全 麻 上 行直 肠 癌 根 治 术(DIXON术),手术过程顺利。患者 3 月前因“直肠癌”在我院于全麻上行直肠癌根治术(DIXON术),手术过程顺利。患者
14、3 月前因“直肠癌”在我院于全麻上行直肠癌根治术(DIXON术),手术过程顺利。(直肠癌,治疗,直肠癌根治术)(直肠癌根治术,同义词,DIXON术)命名实体识别关系抽取直肠癌直肠癌根治术DIXON术知识库智能问答统计分析医疗知识图谱图1电子病历信息抽取过程Fig.1Process of information extraction from electronic medical records关系大类医疗问题-治疗医疗问题-检查医疗问题-医疗问题关系子类治疗-改善-医疗问题治疗-恶化-医疗问题治疗-导致-医疗问题医疗问题-针对性治疗-治疗医疗问题-禁忌-治疗医疗问题-结果-检查医疗问题-诊断-
15、检查医疗问题-影响-医疗问题实例使用氢氯噻嗪控制了高血压使用化疗方案,肿瘤仍在生长服用左旋多巴导致同型半膀氨酸升高定期接受Lasix治疗以防止他患上充血性心力衰竭因溃疡不进行治疗超声图像显示心包积液VQ检测用以诊断肺栓塞继发于败血症的氮质血症表1I2B2 2010数据集关系分类Table 1Taxonomy of I2B2 2010 datasets642023,59(16)压,药物治疗,苯磺酸氨氯地平),(高血压,药物治疗,厄贝沙坦氢氯噻嗪)。电子病历构成复杂,记录了患者从入院到出院的全部信息,包括门诊记录、住院信息、病程记录、检查信息、出院记录等,而病程记录又可以细化为患者的主诉(包括现病
16、史、家族史、既往史等)、诊断信息、用药记录、检查记录等,针对庞杂的电子病历文本,在进行信息抽取之前往往会根据不同内容进行拆分,从而降低信息抽取的难度。对于电子病历的关系抽取研究往往只针对某一部分进行,例如在2019年美国自然语言处理临床挑战(N2C2)中发布了针对电子病历中家族史部分的关系抽取任务。Zhan等人5针对此任务提出了一种基于图的新型双仿注意力模型,其中设计了基于图的模式,以统一的方式表示有关家族史的实体和关系,并采用深度双仿注意力从电子病历中提取实体和关系,在此次任务中取得最好成绩。电子病历信息属于生物医学领域的一部分。生物医学领域的其他相关研究包括药物与药物间交互关系6、药物与不良反应之间的关系以及药物诱导疾病关系、化学品与疾病之间的关系7、蛋白质与蛋白质间交互关系8、癌症基因及药物关系等已经取得了不少成果。由于文本内容的相似性,其他研究存在的问题及对应的解决方案,对电子病历关系抽取也具有借鉴意义。1.3关系抽取的类型关系抽取包括数据集的获取、实体关系序列标注、词嵌入、特征提取阶段,在关系抽取整个生命周期的不同阶段根据不同的问题,研究者把关系抽取分为不同的类型,如表2所示