1、第 27 卷第 6 期2022 年 12 月哈 尔 滨 理 工 大 学 学 报JOUNAL OF HABIN UNIVESITY OF SCIENCE AND TECHNOLOGYVol.27No.6Dec.2022多视图与注意力机制结合的肺结节检测算法刘宇博,刘国柱,史操,许灿辉(青岛科技大学 信息科学技术学院,山东 青岛 266061)摘要:针对传统的计算机辅助诊断系统对低剂量肺部 CT 图像结节检出率低、假阳性高等问题,提出一种类 U-Net 网络和基于注意力机制的两阶段肺结节检测模型。为了提高肺结节的检测速度和检出率,首先构建了一个三维网络用于候选结节的检测,充分利用结节的三维信息提高
2、候选结节的检出率的同时,优化了检出速度;然后采用多视图输入方式以保证对结节空间特征的获取,将结节在三维空间下的矢状面、冠状面、水平面等 9 个角度下的切片一起输入网络,利用 ViT 模型做特征提取器并结合特征金字塔网络实现对结节的分类,将所有切片结果融合以实现对假阳性结节的筛除。最终在 LUNA16 数据集上的实验结果表明,所提出的模型准确率达到 94.7%,提高了准确率的同时降低了误诊率和漏诊率。关键词:深度学习;肺结节检测;候选结节;假阳性筛除;敏感度DOI:10 15938/j jhust 2022 06 014中图分类号:TP391文献标志码:A文章编号:10072683(2022)0
3、6011509Pulmonary Nodules Detection Algorithm CombiningMulti-view and Attention MechanismLIU Yu-bo,LIU Guo-zhu,SHI Cao,XU Can-hui(College of Information Science and Technology,Qingdao University of Science and Technology,Qingdao 266061,China)Abstract:To solve the problems of low detection rate and hi
4、gh false positive of nodules in low-dose lung CTimages by traditional computer-aided diagnosis system,a two-stage pulmonary nodules detection model based onU-Net network and attention mechanism was proposed.In order to improve the detection speed and detection rate ofpulmonary nodules,a 3D network w
5、as constructed to detect the candidate nodules firstly.It optimized the detectionspeed while the three-dimensional information of nodules was fully utilized to improve the detection rate of thecandidate nodules.Then,the multi-view input method was used to ensure that the spatial features of nodules
6、wasobtained.The sections from 9 angles in three-dimensional space,including sagittal plane,coronal plane andhorizontal plane,were input into the network together.The ViT network was used as a feature extractor andcombined with the feature pyramid network to achieve the classification of nodules,and
7、we fused all section resultsto achieve the screening of false positive nodules.The final experimental results on LUNA16 data set show that theaccuracy of the proposed model reaches 94.7%,which improves the accuracy and reduces the rate of misdiagnosisand missed diagnosis.Keywords:deep learning;pulmo
8、nary nodules detection;candidate nodes;false-positive reduce;sensitivity收稿日期:2021 09 01基金项目:国家自然科学基金(61806107,61973180,62002190).作者简介:刘宇博(1997),男,硕士研究生;史操(1981),男,博士,讲师.通信作者:刘国柱(1965),男,硕士,教授,E-mail:LGZ_.0引言随着空气质量的恶化,肺癌已成为全球致死率最高的疾病之一1,肺癌的早期形态表现为肺结节,尽管只有少数的肺结节是恶性病变,但结节的特征往往能表示结节的性质,因此肺结节的检测工作就变得至关重要
9、。随着计算机断层扫描等技术的快速发展,低剂量的 CT 扫描成为一种十分有效地检测方法,但也大大增加了放射科医生的工作量。设计先进的计算机辅助诊断系统能够辅助医生进行肺结节的筛查和精确定位2 3,它们不受情绪和疲劳的影响,可以快速的以相同的质量扫描影像中的任何地方。传统的肺结节检测方法主要是根据设定阈值来实现结节的分割4,这种方式很难将血管组织跟结节进行区分,同时也受 CT 图像质量的影响。后来,研究人员使用机器学习的方法进行肺结节检测,手动从候选结节中提取图像的底层特征,然后将这些特征输入到传统分类器中5 6,这样做结节的形状、尺寸及纹理等特征均需要人工提取,自动化程度较低,且训练量十分庞大,
10、不易完成。随着深度学习的发展,研究人员将卷积神经网络引入到图像和视频的处理中取得了不错的效果。XIE 等7 最先使用 Faster-CNN 算法来检测肺结节,该算法在 LUNA16 数据集上取得了 86.4%的平均敏感度,但没有对针对小结节的检测进行调整,同时对结节空间特征提取有限。由于 GPU 限制,无法将二维检测直接推广到三维检测,因此 DING 等8 利用二维区域建议网络从单个二维图像中提取建议框,然后将他们组合成三维建议框,实现了对结节的三维检测。刘迪等9 提出了首先使用 3D Faster-CNN 模型进行候选结节的检测,对候选结节进行 32 32 32 大小的截取,再通过三维卷积神
11、经网络进行假阳性的判断,这样做可以考虑结节的三维性质并取得不错的效果,但存在检测较慢且效率较低等问题。DOU 等10 针对不同的结节大小提出了一种多尺度输入的三维卷积神经网络,以此来适应肺结节自身尺度的变化,但该方法使用多个三维平行支路大大增加了计算量和模型复杂度。HONG 等11 将注意力机制与三维卷积神经网络相结合,并通过大量实验证明,注意力机制在肺结节检测中有良好表现。尽管目前很多网络取得了不错的效果,但目前的现有算法仍存在漏诊率较高、误诊率较高、检测效率较低等问题。针对这些问题,本文分阶段的构建了两个网络来实现对肺结节的检测。第一步建立了一个三维区域建议网络来直接预测结节的位置,既保证
12、了检测速度的同时,充分考虑结节的三维特征,最大化的找出疑似结节的区域来防止漏诊。第二步建立基于注意力机制的多视图分类网络,将特征金字塔(featurepyramid networks,FPN)12 与 ViT 网络13 结合进行特征提取,将多视图结果融合,实现对疑似肺结节的精准分类来防止误诊。1肺结节检测模型对于检测任务,分为 one-stage 和 two-stage 两种模式。在 one-stage 模式下,大体有两种处理方法,第一种是将边界框和概率进行同时预测,比如文 14,第二种是只对默认框的概率进行预测,而不是生成建议框,比如文 15。对于 two-stage 模式,第一步通过检测网
13、络得到候选结节;第二步在得到的候选结节中进一步筛除假阳性结节。一般来说单步检测速度比较快,分两步检测的准确率会更好。经实验论证,针对肺结节检测任务,两步检测网络整体性能明显优于单步检测。因此,本文采用 two-stage 的检测模式,设计了两个网络来实现检测和去除假阳性结节的工作,首先参考了 3D U-Net16 网络的网络结构,构建三维区域建议网络,实现第一步的候选结节检测工作,然后提出了基于注意力机制的多视图分类网络实现第二步的去除假阳性结节的工作。整个方法的实现流程如图 1 所示。首先对输入的 CT 序列进行预处理,根据给出的掩码图来实现肺实质部分的分割,然后对肺实质部分进行检测,输出所
14、有疑似结节的区域,根据坐标将疑似结节裁剪后送入分类网络进行再次分类筛选,判断是否为真正结节。1.1候选结节检测候选结节检测要尽最大可能的保证结节的召回率,本文方法受 3D U-Net 网络的启发,编码器与解码器之间采用跳跃连接的方式,在解码器输出部分,使用三维区域建议网络来实现结果的输出,这样做是参考单步检测系统将预测的建议框直接作为检测结果。1.1.1候选结节检测网络结构目标检测通常采用基于图像的训练方法,将整张图片作为网络输入,但由于 GPU 内存的限制,对于 3D 网络来说将整张 CT 图像输入到网络中是有困难的。为了解决这一问题,本模型将从肺扫描的611哈尔滨理工大学学报第 27 卷图
15、片中截取 96 96 96 的 3D 块来作为网络的输入。本网络结构保留了编码器和解码器中间的跳跃连接结构,它可以使网络最大程度的获取多尺度信息。因为结节的大小不一,该结构有助于得到结节在不同尺度下的特征信息。网络的输出层使用三维区域建议网络,该结构可以使网络直接生成建议并图 1本文方法算法流程图Fig.1Algorithm flow chart图 2候选结节检测网络结构图Fig.2Network structure of candidate nodule detection返回疑似结节的坐标值,网络结构如图 2 所示。网络主干分为前馈和反馈两个路径,前馈网络先是经过了两层三维卷积,每一层为
16、24 个大小为 3 3 3的卷积核,然后是经过 4 个残差块(es blocks),每个残差块结束时会经过一个三维最大池化层,池化层的大小为 2 2 2 且步长为 2。反馈网络先是经过一个反卷积层,反卷积层的步长为 2 且卷积核大小为 3 3 3,然后再经过一个反卷积层和一个组合单元,组合单元负责将一个前馈网络的 blob(前馈网络生成的特征组合)和一个反馈网络的 blob(反馈网络生成的特征组合)相连并将结果送到一个残差块中,在第二个组合单元中加入位置信息(loca-tion 块)将组合结果送入残差块后得到特征图的尺寸为 24 24 24 131,然后经过两层大小为 1 11 的卷积,通道数分别为 64 和 15,然后对输出层的输出维度进行调整,最终得到的输出结果尺寸为24 24 24 3 5。结合 PN17 网络的工作方法,我们在特征图的每个位置上都设置三个不同尺度的 Anchor,大小分别为 10、30、60 mm,所以我们将网络的 4 维输出调整为 24 24 24 3 5,其中锚盒的数量为 24 2424 3,5 个回归值为(o,dx,dy,dz,dr)分别表示预测概率、结节