1、西北大学学报(自然科学版)年 月,第 卷第 期,()收稿日期:基金项目:国家自然科学基金();陕西省教育厅科研计划项目()第一作者:冯筠,女,陕西西安人,博士,教授,从事智能信息处理研究,。医疗与人工智能融合改进变分自编码器与影像组学的 光片肺部疾病筛查算法冯 筠,牛 怡,杨晨希,沈 聪,郭佑民(西北大学 信息科学与技术学院,陕西 西安;西安交通大学第一附属医院 医学影像科,陕西 西安)摘要 计算机辅助技术在肺部疾病筛查方面已经取得显著成效,然而现有研究大多面向已知类型的疾病进行建模,对未知类型疾病极易带来误诊及漏诊风险,且主要以追求高准确率为目标,对误诊及漏诊未加以约束,导致其难以应用于实际
2、临床场景。针对以上问题,该文提出更适用于临床的计算机辅助肺部疾病筛查目标,即保证零漏诊率的同时降低误诊率。为完成上述肺部疾病筛查目标,该文基于单类别分类思想提出改进变分自编码网络对肺部疾病初筛,并提取 光片图像的深度编码特征,接着,融合基于医生经验的影像组学特征以及深度学习特征之间的互补优势,构建一个集成学习模型,最终完成肺部疾病的筛查。在仅有正常 光片图像参与训练的情况下,提升了所构建模型的分类效果,降低了模型的漏诊率。实验结果 值为.,漏诊率为 时,误诊率降低至.,证明该方法可以有效达到该文的肺部疾病筛查目标。与此同时,对比了所构建的集成模型以及单独的深度学习模型的筛查效果,发现集成模型明
3、显优于深度学习模型,进一步凸显了融合医生经验的有效性。关键词 肺部疾病筛查;胸部 光片;影像组学;单类别分类;集成学习中图分类号:.:,(,;,),:,.,;肺部疾病以其发病率高、起病隐匿、病死率高等特点为社会及国民经济带来沉重负担。常见的肺部疾病包含肺炎、肺癌、肺结核、慢性阻塞性肺疾病等。据世界卫生组织 年发布的全球健康估计显示,慢性阻塞性肺疾病、肺炎以及肺癌等多项肺部疾病仍属于全球十大高病死率疾病。此外,世界卫生组织发布的 年全球结核病报告中指出,仅 年全球肺结核发病人数高达 万例,并且仍是世界上最大的传染性疾病之一。同时,近几年一直持续的新冠肺炎疫情更是近百年来传播速度最快、感染范围最广
4、、防控难度最大的突发公共卫生事件。诸多实例及数据警示我们,对肺部疾病的高效筛查对于保障人民健康生活起着至关重要的作用。胸部 光片具有易获取、低成本、低辐射等特点,已成为肺部疾病筛查的主要手段。同时,随着体检需求量的逐年增加,胸部 光片检查作为健康体检的必要检查项目,其产出量也成倍增加,影像科医生的工作负担也越来越重。当前影像科医生仍主要以肉眼阅片作为主要观测手段。但受人的视觉疲劳或诊断水平等因素干扰,繁重的阅片任务容易使医生产生观察偏差,从而降低诊断准确率。据不完全统计,通过医生肉眼阅片的错误发生率在不同疾病及不同影像上呈现 不等。同时,医生肉眼阅片仍然存在阅片速度有限以及专业医生缺口大的问题
5、。越来越多的研究者们尝试采用计算机手段辅助医生进行疾病筛查,进而引入计算机辅助检测或诊断(,)系统来助力医疗服务。计算机以其强大的计算及存储能力可以对影像信息进行快速、全面且精确的计算,进而辅助医生进行病灶的检出及诊断,在保证筛查结果准确率的情况下极大减轻医生工作负担。早期,等人通过对肺实质进行分割进一步提取肺部弥漫性纹理特征,并采用 方法实现肺结核疾病的筛查。等人利用 滤波技术从 光片中提取肺部区域并提取其形状和纹理特征,使用 模型得到较为优异的分类效果。随着深度学习方法在医学图像分析方面的发展,等人提出 层卷积神经网络 完成肺炎的分类,并使用类激活图对分类结果进行可视化解释。等人提出了一种
6、类别级残差注意学习框架,以端到端的方式学习多标签分类的鉴别特征,并在 数据集上取得了优越结果。等人使用 对胸部 光片进行肺实质分割,并采用 种预训练的分类模型进行集成学习来实现肺结核疾病的筛查。等人提出基于通道、元素以及尺度级别的三重注意力机制实现常见的 种肺部疾病的分类,并且取得先进的实验效果。等人以 作为主干网络并嵌入注意力机制进行特征提取,同时,部署了一组具有不同扩张率的跳跃连接扩张卷积,实现高级语义和低级形态信息的充分融合,促进了新冠肺炎的辅助诊断效果。然而,目前肺部疾病筛查相关研究主要以追求筛查结果的准确率为目标,寻找敏感性与特异性的折中点,进一步给出疾病诊断结果。对于影像科医生来说
7、,该诊断结果对误诊及漏诊现象未加以约束,因此仍需医生再次复核,反而增加了疾病诊断时间。此外,当前研究大多面向某几类常见疾病进行建模,进而完成该疾病的分类。但现实生活中肺部疾病类别往往难以穷尽且影像征象复杂多变,若临床应用中存在未知类型疾病,则极西北大学学报(自然科学版)第 卷容易产生误诊及漏诊现象。针对以上导致当前研究难以应用于实际临床场景的问题,本文认为计算机辅助诊断重点在于为医生提供“第二参考意见”来辅助医生的诊断决策,而非代替医生给出诊断结果。因此,本文对医生的阅片诊断流程进行分析,如图 所示,将其梳理为以下几个环节:首先,进行初步的疾病筛查,排除无需再次核查的正常影像;其次,对于有可能
8、患病的影像进行更加细粒度的病灶检测以及征象辨识;最后,确定疾病种类。图 医生诊断流程 遵从医生的阅片诊断流程,本文的筛查任务主要聚焦在第 个环节。具体地,本文并不代替医生进行疾病类型的诊断,而是辅助医生在筛查过程中排除无需再次核查的正常影像,进而减轻医生及后续任务的工作量。因此,本文肺部疾病的筛查目标为保证零漏诊率的同时降低误诊率。大量研究表明,单类别分类(,)作为一种特殊的分类情况,在无监督异常检测、开集识别以及新颖点检测等任务上展现了明显优势。单类别分类模型在训练过程中只有一类样本参与,并且学习目标是使分类器能够在推理过程中正确识别学习到的正类样本进而完成分类。受此思想启发,若模型训练时只
9、对正常的 光片进行建模,使所学习到的分类器在推理过程中能正确识别正常的 光片,对于其他未知的 光片将其统一划分为异常,这样可以有效降低因未知疾病误分所带来的漏诊现象。目前仅有部分面向胸部 光片的异常检测任务采用了上述单类别分类的思想来完成。等人在仅有正常样本的情况下训练生成对抗网络对胸部 光片进行重构,在推理过程中通过衡量重构图像与原始图像间的差异来区分正常样本和异常样本。此假设模型在推理阶段对学习过的正常样本具有较好的重构效果,对未学习过的异常样本具有比较差的重构效果。等人同样基于上述假设,通过图像在隐空间的编码进行重构转换,学习正常数据中的翻译一致性特征,并基于图像转换前后所得编码差异进行
10、分类。目前这类研究相对较少,且大多采用深度学习模型来实现。一方面,单类别分类模型训练时只有正常类别样本参与,难以学习到区别于非正常类别样本的特征,容易造成肺部疾病筛查结果不理想;另一方面,深度学习模型在下采样过程中容易遗漏图像底层细微的视觉特征,同时,未结合医生先验知识容易造成具有微小病灶的疾病漏诊。在此,针对单类别分类方法难以学习区别于非正常类别样本特征导致筛查结果不理想的问题,本文提出改进变分自编码生成对抗网络用于肺部疾病的初筛,并提取图像的深度编码特征。进一步受到影像组学工作的启发,针对具有微小病灶疾病容易漏诊的问题,融合基于医生经验的影像组学特征以及深度学习特征间的互补优势,构建一个集
11、成学习模型实现本文的肺部疾病筛查目标。光片肺部疾病筛查算法本文肺部疾病筛查算法的框架如图 所示,整体流程分为数据预处理、特征提取、特征分组及选择、分类模型构建 个阶段。其中:数据预处理部分主要实现 光片图像肺实质的分割;特征提取阶段包括影像组学特征的提取以及图像深度学习特征的提取,深度学习特征的提取采用所提出的改进变分自编码网络来实现;特征分组及选择阶段对特征依据类别及左右肺区域进行分组并获取最佳特征子集;分类模型构建部分用于构建最终肺部疾病筛查的分类模型。需要强调的是,本文的模型训练过程均仅使用正常 光片图像来完成。第 期 冯筠,等:融合改进变分自编码器与影像组学的 光片肺部疾病筛查算法图
12、本文研究框架图 .改进变分自编码网络模型构建 网络框架本研究提出了一种改进变分自编码生成对抗网络用于肺部疾病的初筛,同时提取胸部 光片的深度学习特征。在本文的学习场景中,给定训练集 (,),。其中:为训练集样本数量,为正常的胸部 光片图像,为对应的标签(,)。测试集 (,),。其中:为测试集样本数量,为测试集图像对应的标签,包含正常()和异常()两类。在此基于一个假设:在训练时,模型仅学习对正常图像的重构生成,在推理过程中对正常图像会有较好的重构效果,而对其他未学习过的异常图像其重构效果较差,因此,推理过程中可根据原图和重构后图像之间的差异大小进行分类。基于上述假设所提出的改进变分自编码网络框
13、架如图。图 改进变分自编码网络结构图 具体地,模型共包含两个编码器、一个解码器、一个鉴别器 以及一个隐层编码分类器。其中,第一个编码器用于对原始图像 进行编码。隐层编码分类器用来代替变分自编码西北大学学报(自然科学版)第 卷器中的 散度,进而促使训练过程中原始图像的编码特征 尽可能符合标准高斯分布(),且 (,),即正常样本所得编码特征符合高斯分布。解码器用于对隐层特征进行解码生成图像。记 ()()()()()()同时,鉴别器主要用于区分原始图像、重构图像 以及从标准高斯分布中采样特征 所生成的图像?。在此,希望原始图像其编码特征经过重构后所得重构图像 与原始图像尽可能相近,并且希望重构图像
14、以及生成图像?尽可能欺骗鉴别器。第 个编码器用于对重构图像 进行编码,并且与第 个编码器权重共享。在此,原始图像 和重构图像 在输入编码器后经过相同的函数变换,并在训练过程中强制二者所得浅层风格特征以及深层语义特征都能尽可能一致。.损失函数及训练过程本文的损失函数主要包括图像重构损失、特征图一致性损失、编码一致性损失、隐层编码对抗损失、图像对抗损失,具体损失函数定义如下。图像重构损失 采用原始图像 及重构图像 间的 距离度量二者间的相似度,()()()特征图一致性损失 采用 距离度量原始图像 及重构图像 经过编码器所提取到的特征图之间的相似度,()()()式中,代表编码器 第 层输出。编码一致
15、性损失 采用 距离度量原始图像 及重构图像 经过编码器所得编码特征的相似度,()()()隐层编码对抗损失 采用对抗学习思路将其建模为真实图像编码特征 与从标准高斯分布采样特征 分类的二元交叉熵损失,()()()()()图像对抗损失 同样采用对抗学习思路,定义为 ()()()()()()编码器、解码器、鉴别器 以及隐层编码分类器 依照表 所示步骤依次被训练。表 改进变分自编码网络训练过程 方法 改进变分自编码网络训练过程初始化:初始化网络参数,超参数,赋值执行 次迭代训练:)随机采集 个训练样本,)从编码器中得到每个原始图像 对应的编码特征,()同时,从编码器得到每个原始图像 第 层对应的特征图
16、,()从标准高斯分布()中采样 个特征,)从解码器生成每个原始图像 的重构图像,()从解码器得到 个生成图像,?()从编码器得到每个重构图像 对应的编码特征,()同时,从编码器得到每个重构图像 第 层对应的特征图,()依据公式()、()、()、()、()依次计算、)梯度下降依次更新网络参数 ()()返回:更新后的网络参数、第 期 冯筠,等:融合改进变分自编码器与影像组学的 光片肺部疾病筛查算法.推理过程在推理过程中,基于原始图像和重构后图像间的像素差异以及二者经过编码器所提取到特征间的差异作为异常分数对测试样本进行分类。异常分数(,式中简记为)定义为()()()()式中:、分别表示原始图像和重构图像之间的像素差异以及特征差异在整体异常分数中所占的权重。并且,、的参数选择依据验证集分类结果的最佳 值进行选取。将得到的异常分数作为后续集成模型中的一个基分类结果来构建最终的筛查模型。此外,由于训练时强制正常样本的编码特征分布拟合标准高斯分布,因此,在推理过程中正常样本的编码特征更符合标准高斯分布,而异常样本编码特征分布更离散,二者具有一定区分性且相比底层视觉特征包含的语义性更强。所以,训练好