1、799中国卫生资源 2022年11月 第25卷 第6期http:/基于知识图谱的疾病筛查模型研究:以新型冠状病毒肺炎为例夏寒,夏天,张诚,钱晨嗣,刘星航,杨妹,李润美上海市疾病预防控制中心,上海 200336【摘要】目的 形成一套基于机器学习等技术、面向疾病筛查的模型构建方法与路径,推进我国常见疾病、传染病的预测预防与早期干预。方法 以新型冠状病毒肺炎为例,基于统计学和知识图谱理论,利用大数据和机器学习技术,提取疾病数据集的特征数据,构建基于机器学习的疾病早期筛查模型。结果 对500例风险人员进行模型测试,并依据核酸检测结果评价模型的准确率,测试结果表明,模型有较高的准确率。结论 研究构建的疾
2、病筛查模型较好地解决了传统疾病筛查效率低、准确性差的瓶颈问题,实现了居民及医疗机构对疾病的早期筛查与识别,可以在不同医疗机构以及互联网端推广使用。【关键词】机器学习machine learning;知识图谱knowledge atlas;疾病筛查模型disease screening model;传染病筛查infectious disease screening;新型冠状病毒肺炎COVID-19【引用】夏寒,夏天,张诚,等.基于知识图谱的疾病筛查模型研究:以新型冠状病毒肺炎为例J.中国卫生资源,2022,25(6):799-802.公共卫生本文链接 http:/doi.org/10.13688
3、/ki.chr.2022.220833【基金项目】2021年科技部科技创新2030-“新一代人工智能”重大项目“新冠肺炎疫情等公共卫生事件的智能流调研究”(2021ZD0114000);2022年科技创新行动计划“以创新为导向的“互联网+公共卫生服务”可持续发展模式研究”(22692105000)【作者简介】夏寒,教授级高级工程师,硕士,主要从事卫生信息管理研究,【通信作者】夏天,【中图分类号】R183;TP319 【文献标志码】A 【文章编号】1007-953X(2022)06-0799-04疾病的发展都有一个过程,早发现、早预防很关键。一般来说,疾病诊断得越早,治疗的效果就会越好,在疾病还
4、处于早期时就开始进行管理能显著降低其对患者生活的影响并减缓严重并发症的出现。国内外经验表明,采取“早预防、早筛查、早治疗”等防治措施,对于降低疾病的发病和死亡具有显著的效果,可从源头上节约社会医疗成本。机器学习(machinelearning,ML)是人工智能的核心,其数据处理、归纳、综合能力远优于其他的统计学方法。机器学习方法在临床结局预测和危险因素评估等方面具有明显优势1。研究基于新型冠状病毒肺炎(以下简称“新冠肺炎”)知识图谱,利用大数据和机器学习技术构建传染病筛查模型,并依据核酸检测结果评价模型的准确性及价值。研究旨在形成一套基于机器学习等技术、面向疾病筛查的模型构建方法与路径,推进我
5、国常见疾病、传染病的预测预防与早期干预,在居民健康智能管理、流行病学调查等领域建立新业态、新模式。1对象与方法1.1研究对象研究对象为2020年7月1日2021年6月30日的上海市新增新冠肺炎确诊病例以及相关密接和次密接人员,这些人员急需在风险暴露初期了解自身感染情况。数据来源于上海市卫生健康委员会,以随机抽样法抽取其中500例风险人员,通过“健康云”应用程序(application,App)以电子问卷形式进行问卷调查。对回复的调查问卷数据进行建模,并依据核酸检测结果评价模型的准确率。1.2研究方法1.2.1问卷调查采用德尔菲法确定调查问卷的内容,邀请相关政府行政部门人员(3人)、疾病预防控制
6、中心领导及医务人员(6人)、实际参与流行病学调查工作人员(8人),共17 位专家(均具有副高级及以上职称),依据国家卫生健康委员会制定的 新型冠状病毒感染的肺炎诊疗方案(试行第八版)2中流行病学史的内容制定调查问卷内容,调查问卷内容随上述诊疗方案的版本更新作相应调整。1.2.2模型构建早期筛查模型主要基于新冠肺炎知识图谱3-5和自然语言处理(natural language pro-cessing,NLP)6-7。知识图谱就是把所有不同种类的信息(heterogeneous information)连接在一起而得到的一个关系网络,旨在采用图结构(graph structure)来建模和记录世界
7、万物之间的关联关系和知识,以便有Chinese Health Resources,November 2022,Vol.25,No.6http:/800效实现更加精准的对象级搜索。知识图谱的建立依赖于使用的多源数据,包括临床诊疗指南、疾病知识库、传染病诊疗规范和疫情排查策略等。自然语言处理是研究人与计算机交互的语言问题的一门学科,人类使用计算机来处理、理解以及运用人类语言,如中文、英文等。2基于知识图谱的新冠肺炎早期筛查模型早期筛查模型主要包含2个部分:第一部分,构建与新冠肺炎相关的知识图谱,随后依据知识图谱关键词和实际工作经验构建相关的问卷,并生成网页链接或小程序,推送给测试者,供测试者填写完
8、成;第二部分,根据测试者填写的问卷结果,采用自然语言处理的相关算法建立模型。2.1新冠肺炎知识图谱构建目前,构建知识图谱有自下向上和自上向下2种方式,通用公共领域的知识图谱一般采用自下向上的方式,而在医学等专业领域,知识图谱则采用自上向下的方式。因此,新冠肺炎知识图谱的构建主要采用了自上向下的方式,在设计新冠肺炎知识图谱原型时,本研究深入了解了传染病知识图谱的业务范围,预定义实体类型、实体属性和关系类型等信息,并结合相关专家经验与新冠肺炎疫情防控实践经验,使得研究的新冠肺炎知识图谱符合实际应用需求。(1)知识来源。新冠肺炎知识图谱的原始粗语料数据来源于国内外医学知识图谱、临床诊疗指南、疾病知识
9、库、国家及时发布的各种传染病诊疗规范,以及官方疫情排查策略等信息。(2)知识融合。新冠肺炎知识来源的多样性容易导致信息冗余、知识间关联不够明确等问题,如存在很多异同。为了保证知识融合的有效性,首先结合知识融合技术对数据进行处理,以获取可用于构建知识图谱的数据。此外,还利用了规则和实体对齐的方法构建了一套医疗别名实体库,并在此基础上通过实体映射融合了多源数据。(3)知识存储。新冠肺炎知识图谱的关联数据量大,若使用关系型数据库会因构造大量表结构而形成数据冗余浪费存储空间,并且查询效率可能较低。因此,研究采用了Neo4j图数据库,Neo4j图数据库对于数据的构造是描述性的,不需要预先设计数据库的结构
10、,当添加实体和关系数据时,只需要添加相应的节点和连接到数据库。通过知识来源、知识融合和知识存储形成新冠肺炎知识图谱,工作人员通过知识图谱中的词形成相关的问题构建调查问卷,为后续的问卷调查、模型构建、智能研判等提供基础。2.2新冠肺炎早期筛查模型建立用户填写电子问卷之后,利用机器学习对问题的答案进行分析,并给出分析结果。模型建立的步骤如下:第一步,使用双向最大匹配算法8对新冠肺炎常见问题进行分词,根据分词结果提取关键词划分问句类别,主要利用BERT-BiLSTM-CRF(中文名:实体识别任务)模型识别医疗命名实体9,并采用LTP-parser对问句作依存句法分析得到问题三元组。第二步,将问题三元
11、组按照问题模板生成对应的Cypher查询语句,在新冠肺炎知识图谱内执行得到答案三元组。第三步,将答案三元组的语义进行优化后反馈给用户一个通俗易懂的自然语言答案。见图1。由图1可以看出疾病早期筛查的研究工作主要包括了中文分词、问题分类、医疗实体识别、语义依存分析、Cypher查询语句构造、答案生成等部分。(1)中文分词。研究采用了双向最大匹配算法,正向最大匹配算法在接收到自然语言问句后,首先确定字典中单词的最大长度,然后从左到右对问题进行划分,对分割后的单词在字典中进行匹配。如果匹配成功,则将该字段作为分词进行隔离,如果匹配失败,则将匹配图1新型冠状病毒肺炎疾病早期筛查模型建立注:BERT-Bi
12、LSTM-CRF为实体识别任务。双向最大匹配算法中文分词问题基于关键字问题分类基于BERT-BiLSTM-CRF模型命名实体识别-parser依存句法分析Cypher查询语句构造新型冠状病毒肺炎知识图谱答案LTP801中国卫生资源 2022年11月 第25卷 第6期http:/单词的长度减少1,并再次分割问题,直到句子中所有单词都被分割完。反向最大匹配算法是将问题从右到左进行分割,其方法与正向最大匹配算法相同。如果2种匹配算法分词结果相同,则返回任一分词结果;如果2种匹配算法分词结果不同,则返回分词数较少的结果。(2)问题分类。针对新冠肺炎疾病常见问题,本研究根据上文分词后得到的关键词如“新冠
13、肺炎”“症状”“检查”等对问句进行分类设计了几类问题,这些问题可以在新冠肺炎知识图谱中查询得到答案。(3)医疗实体识别。在医疗实体识别过程中,采用了主流的基于BERT-BiLSTM-CRF的命名实体识别模型。该模型包括BERT嵌入层、BiLSTM特征提取层和CRF序列标注层。首先,利用BERT模型将原问句中的字转换为相应的字向量表示,提取字的重要特征;然后,将得到的字向量输入到BiLSTM层中以进一步捕获文本上下文的特征信息;最后,引入到CRF层,结合CRF中的状态转移矩阵,根据相邻标签之间的相关性,输出最终的全局最优序列。BERT-BiLSTM-CRF模型结构如图2所示。后可得到“新冠肺炎”
14、疾病实体,经依存句法分析得知,与“新冠肺炎”实体密切相关的是动词“使用”,“使用”的宾语是“药物”。通过中心词“使用”,“新冠肺炎”与“药物”建立了联系,形成了“新冠肺炎,使用关系,药物”的问题三元组。(5)Cypher查询语句构造。为了在新冠肺炎知识图谱中查询到问题的答案,需要将问题三元组转换为Cypher查询语句,并根据上述定义的几类问题分别设计相应的Cypher查询模板,包括疾病类问题查询模板、医疗科室类问题查询模板、症状类问题查询模板等。(6)答 案 生 成。最 后,调 用py2neo模 块 实 现Ne04j图数据库查询接口,使用Cypher 查询语句在知识图谱内查询得到答案三元组。然
15、后,根据不同类别的答案进行语义优化,反馈给用户一个通俗易懂的自然语言答案,包括新冠肺炎疾病的自诊结果、治疗建议、预防措施等信息。3结果对500例测试者进行问卷调查,对问卷调查结果进行建模预测,预测结果如表1所示。表1中测试者id为实验中测试者的唯一标识,测试结果共有4项,包括新冠肺炎风险概率、非新冠肺炎呼吸系统疾病风险概率、未患呼吸系统疾病概率、确诊病例(预测结果),确诊病例(实际结果)这项为实际结果。最终得到500例测试者中有464名测试者的结果准确,该模型的准确率为92.8%。图2命名实体识别模型注:BERT-BiLSTM-CRF为实体识别任务。(4)语义依存分析。基于上述命名实体识别后的
16、结果,采用LTP-parser对问句依存句法分析得到问句中各词与实体的关系,并生成问题三元组。如问题:“新冠肺炎使用什么药物?”可分为“新冠肺炎”“使用”“什么药物”“药物”等。在医疗问题命名实体识别B-disI-disI-disE-disooooy1y2y3y4y5y6y7y8M1M2M3M4M5M6M7M8P1P2P3P4P5P6P7P8X1X2X3X4X5X6X7X8TransformerTransformer出现发热、干咳、体寒、体不适、胸痛是否感染了新型冠状病毒肺炎?输出CRFBERT输入BiLSTM表1测试者模型风险预测结果与实际结果测试者id新型冠状病毒肺炎风险概率非新型冠状病毒肺炎呼吸系统疾病风险概率未患呼吸系统疾病概率确诊病例(预测结果)确诊病例(实际结果)1000010.090.820.09否否1000020.100.160.74否否1000030.200.770.03否否1000040.790.190.02是是1000050.180.810.01否否1000060.040.130.83否否1000070.050.920.03否否1000080.040.220.74