1、收稿日期:;修订日期:基金项目:国家重点研发计划项目();贵州省科技计划项目(黔科合支撑一般)作者简介:谢文利(),女(汉族),湖北天门人,湖北中医药大学在读硕士研究生,学士学位,主要从事中医药标准化与信息化工作通讯作者简介:解 丹(),女(汉族),湖北武汉人,湖北中医药大学信息工程学院教授,硕士研究生导师,博士学位,主要从事医学人工智能、自然语言处理研究工作中医症状学基础知识编码模型及其应用研究谢文利,解 丹,张 盼,田双桂,宋淑洁,沈绍武,毛树松(湖北中医药大学信息工程学院,武汉;湖北中医药大学中医临床学院,武汉;湖北省中医院,武汉)摘要:目的 中医临床数据中症状学信息作为辨证论治的关键要
2、素一直以来因缺乏标准而难以实现自动识别,构建中医症状学基础知识编码模型是实现中医临床数据知识化的重要基础,利用该模型可实现症状信息的自动提取,进而开展中医临床知识关联分析,绘制中医临床知识图谱,揭示中医临床的“事实与规律”。方法 建立基于中医临床知识属性信息分类与代码标准的多维属性症状标注体系,并对全国科学技术名词审定委员会公布的中医药学名词中的中医症状学相关术语进行标注与编码。结果 在包括中医、信息技术等在内多学科团队的合作下共同构建了中医症状学基础知识编码库。结论 实现了中医临床基本症状术语的隐性知识因子显性化,使其知识表达更加规范和完整,为中医临床精准化诊疗模型构建和临床知识处理提供重要
3、的中医症状学基础知识编码。关键词:中医临床症状学;基础知识;编码;模型 标识:中图分类号:文献标识码:文章编号:()中医临床诊疗过程中会产生大量临床数据,挖掘其中蕴含的丰富临床实践经验知识,对中医临床诊疗具有重要价值,也是中医学临床研究创新发展的必然趋势。而中医临床数据分析利用的重要前提是抽取出其中有用的医疗信息。自由文本病历数据中的关键信息,如疾病、检查、症状、治疗、疾病分类等信息,可以通过信息抽取获得。其中中医症状学信息,包括症状、舌象和脉象等是中医临床辨证论治的关键要素和依据,也是中医临床大数据知识工程研究中最为重要和复杂,精准识别与获取难度较大的工作。症状的命名实体识别工作已开展多年,
4、但由于不同医生对于症状的描述差异较大,缺乏统一术语规范,导致对抽取结果一直没有统一界定标准。信息抽取需要先构建带有标注信息的语料库,用于训练抽取模型。但目前对于中医临床症状语料标注的研究还停留在概念层面,尚未对其进行深层次的知识属性划分以及规范标注,但在实际临床中对于症状的描述往往包含轻重程度、发生因素、持续时间等内容,临床诊疗时医生需要综合考虑这些因素,数据挖掘时数据分析人员也需要考虑这些因素。对于中医症状信息抽取不能只抽取其概念词,还需要抽取其属性信息。因此,研究如何对中医症状信息进行带有知识属性的语义标注尤为重要。在世界医学界,医学术语规范化极大的影响着疾病分类的质量,其准确与否可以直接
5、影响病种统计结果的一致性和可比性。医学系统命名法 临床术语(,)作为目前世界上内容最广泛的临床医学术语与信息编码系统。广泛应用于电子医学记录、重症监护室监测、决策支持等各个领域。年以来美国国立医学图书馆对医学主题词表(,)以概念为中心进行了重构,可以更清晰地表达词汇、概念以及叙词组之间各种关系,主要用于索引和编目。年发布的国际疾病分类(,)构建了基于本体论的疾病分类体系,定义了 个属性,从 个关系角度描述疾病。与 本质上的区别就在于对疾病分类的定义模式,特异性较低,描述详细,两者互补可以为医疗保健数据提供基础支持。此外,世界卫生组织西太区发布的国际标准传统医学术语(,)对疾病收词 条,中国中医
6、科学院信息研究所发布的中国中医药主题词表收词 条,全国科学技术名词审定委员会发布的中医药学名词收词 条,基于其临床分科全面,收词较多,且具有权威性,本研究将其作为中医症状学基础语料来源。同时,中国中医药信息学会发布了团体标准中医临床基本症状信息分类与代码(简称症状标准),其中对于症状不仅给出了规范名称,还给出了 个属性及其编码。根据中医临床大数据知识工程总体规划安排,为满足中医临床数据知识化需要,本研究依据症状标准,中医舌象诊断信息分类与代码(简称舌象标准)和中医脉象诊断信息分类与代码(简称脉象标准)创立了中医症状学信息语义标注方法和中医症状学基础知识编码模型,用以构建中医症状学基础知识编码库
7、。中医症状学基础知识编码模型中医症状是实体概念而非属性概念,是患者或他人借助各种感受器感知人体信息并与既往的经验进行对比形成的直观认识,具有多重属性,因此可根据属性来区分不同症状。构建中医症状学基础知识编码模型,对中医症状、舌象与脉象知识进行编码,将其隐性知识显性化,形成中医症状学基础知识编码库,可为开展中医临床知识工程研究,形成精准化中医临床诊疗模型和构建临床知识库与智能应用系统提供知识编码。中医临床症状学基础知识编码模型,如图 所示。数数据据准准备备 以中医药学名词中收录的中医临床各科名词共 条,作为中医临床基本症状、舌象、脉象信息标注与编码的数据源。将其录入,构建原始症状学语料数据库,其
8、数据分布如表 所示。症症状状信信息息标标注注 标标注注规规范范 原始语料中的症状描述包括症状、舌象和脉象,其中部分描述还包含了否定词,参照症状标准中的 个属性分类,以及舌象标准中的“舌质与舌苔”个属性和脉象标准中的“脉诊”属性,在此基础上添加 个“否定”属性,一共 类,并用字母表示如下:表示骨干症状,表示获取方式,表示人体部位,表示患者人群,表示性质情况,表示颜色情况,表示光泽情况,表示形态情况,表示动态情况,表示排出物质地,表示排出量,表示排出感,表示次数增减,表示月经周期,表示气味情况,表示轻重程度,表示发生时珍国医国药 年第 卷第 期 因素,表示加重因素,表示缓解因素,表示浮沉情况,表示
9、发作缓急,表示发作情况,表示持续时间,表示专科病症,表示方位情况,表示舌质,表示舌苔,表示脉诊,表示否定词。本研究将其作为症状标注规范,并遵循命名实体标注的基本原则:()不重叠标注,同实体不能标注为两种或两种以上的实体类型;()不嵌套标注,在标注时按照上下文语义选取合适的实体名称,不能在一个实体中再标注实体;()无意义标注:实体尽量不包含标点符号、连接词和文言文。对 数据库中原始症状语料进行整理标注,其方法为:首先用标识出一个症状,其中包含骨干症状、获取方式及属性,在症状标准中确定对应的骨干症状名,用 表示“骨干症状”,在“”后是“获取方式”,在“;”后是症状描述原文,其中“”中是对症状属性进
10、行标注,当原文出现的属性词与症状标准中的标准词不匹配时,使用“”后接“标准词”来进行特殊标识,标注示例如下:原文:在急危重症中,以大汗淋漓,汗出如油,精神疲惫,四肢厥冷,气短息微,舌卷少津,脉微欲绝,或脉大无力等为常见症的液脱证候。标注文:在急危重症中,以:汗异常 问汗出;大汗:淋漓 量多 ,:汗异常 问汗出;汗出如油,:少神 望神;精神疲惫,:怕冷 问寒热;:四肢 :厥冷 逆冷 ,:呼吸微弱 呼吸异常;气短息微,:舌卷:少津,:脉微欲绝,或:脉大无力等为常见症的液脱证候。图 中医症状学基础知识编码模型表 中医症状学数据分布表疾病分类数据量疾病分类数据量内科皮肤科外科肛肠科妇科眼科儿科耳鼻喉科
11、骨伤科总计 标标注注过过程程 目前主流的 种语料标注模式有:领域专家标注,适于专业领域语料的标注,能确保标注的质量,但标注成本高,周期长;众包标注,适用于构建较大规模的语料,方便且成本较低,但仅限于简单的标注任务,并且需要精心地设计标注过程以确保标注质量;团体标注,这种标注模式能够在不依赖于专家的情况下,构建高质量的语料,但对标注团体有很高的要求。参考昝红英等的构建语料库的流程,采用团体标注 领域专家的模式,对中医药学名词(简称名词)中症状信息进行标注。标注流程如图 所示。第一阶段:通过分析基础语料文本以及中医临床症状信息的特点,在相关医学专家的指导下,确立了中医临床基本症状信息的分类体系,制
12、定了标注规范(版),并基于症状标准,构建原始中医症状语料数据库。第二阶段:采用最大双向匹配法对原始中医症状语料数据库中的语料进行预标注。将每个文本由、两个标注者独立标注,在 标注完成后,进行二次标注,当、标注不一致和不确定时应经过讨论找出解决方案,再由 进行修改,形成最终的三标版本。在此过程中,不断地对中医症状语料数据库进行标注更新,同时不断修订完善标注规范,使其更加科学合理和易于操作。图 中医症状学信息标注流程图 症症状状编编码码 本研究采用基于规则和字符串匹配与人工相结合的方式进行编码,利用计算机辅助编码,实现半自动编码,编码过程如图 所示,首先将症状标准舌象标准脉象标准中的代码进行整合,
13、得到中医临床症状属性分类与代码表,再将名词中症状信息的属性描述与该代码表进行匹配,确定其属性代码,若然匹配不成功则进行人工编码,并反复核对,最终完成编码。中医症状学知识编码流程,如图 所示。图 中医症状学知识编码流程图依据症状标准对名词中的中医临床基本症状信息进行编码,其编码结构由 部分组成:症状标识符位、症状主码位和附加码位,症状标识符位:以“症状”的汉语拼音首字母“”作为中医临床标识符;其代码的具体结构和编码规则,详见症状标准,部分属性代码如表。该标准规范了中医临床症状的 个属性类别,本研究以此规范作为症状信息标注的依据,对名词中的基本症状信息进行编码。具体操作是直接用名词中的症状信息与症
14、状标准中骨干症状词匹配,例如名词中症状“头痛”信息,在症状标准中骨干症状词为“疼痛”,部位属性为“头部”,其代码分别为【】和【】。若在无法直接与症状标准匹配相应的症状词时,则可编制中医症状同义词表,并根据该表建立匹配规则,确定相应的属性代码。若某一症状描述中未含“患者人群”信息,但其仅出现在特定人群中,可以此确定其“患者人群”信息,并建立相应的编码规则。例如症状“月经异常”,其患者人群为“女”,代码为“”。若某一症状描述中未含“获取方式”信息,则根据骨干症状和人体部位等属性信息来确定“获取方式”,并建立相应的编码规则,例如骨干症状“怕冷”、“发热”的获取方式为“问寒热”。若出现复合症状如“二便
15、带血、唇甲淡白”等,此类症状包含两个骨干症状,“二便带血”的骨干症状包含“大便异常与小便异常”,“唇甲淡白”的骨干症状包含“唇部异常和爪甲异常”,则会 时珍国医国药 年第 卷第 期出现两个编码,例如二便带血的编码为【】和【】,唇 甲 淡 白 的 编 码 为【】和【】。表 中医基本症状属性名称与代码示例表骨干症状 获取方式 人体部位 性质情况 怕冷 问诊 头部 幻视 发热 问寒热 颅部 幻听 汗异常 问汗出 巅顶 循衣摸床 疼痛 问疼痛 囟门 妄言 头蒙 问不适 前囟 撮空引线 头空 问睡眠 后囟 妄见 脑鸣 问饮食 头两侧 目视无神 在对症状的属性进行编码后,将其组合得到症状代码。例如症状“头
16、 痛”中 包 含 人 体 部 位 属 性 信 息“头”,代 码 为【】;骨干症状“疼痛”,代码为【】;获取方式为“问疼痛”,代码为【】;组合得到代码为【】,部分症状代码示例,如表 所示。表 症状编码示例表症状名称症状信息分类代码唇干红 大便干燥 腹痛 干咳 舌舌象象、脉脉象象编编码码 舌象、脉象编码过程与症状编码程序相同,其中舌象信息按照舌象标准进行编码,舌象信息分类代码由舌质分类代码和舌苔分类代码构成,详见该标准的编码规范。舌质分类代码由舌质标识位()、舌色代码位、舌色位代码位、舌形代码位、舌形部位代码位、舌态代码位及补充代码组成。其补充代码是针对一个舌象诊断中的舌色、舌形和舌下脉络信息出现复合诊断信息时,需要根据临床实际对舌色、舌形和舌下脉络信息进行补充编码;舌苔信息分类代码由舌苔标识位()、苔色代码位、苔色位代码位、苔质代码位、苔质部位代码位及补充代码组成。补充代码是针对一个舌象诊断中的苔色、苔质信息出现复合诊断信息时,需要根据临床实际对苔色与苔质进行补充编码。脉象信息按照脉象标准进行编码。将脉象划分为浮脉、沉脉、迟脉、数脉、虚脉、实脉、怪脉、平脉、其他脉类等 个类目。脉象信息分