1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software GuidePRA-UNet3+:全尺度跳跃连接CT肝脏图像分割模型钟经纬(江南大学 人工智能与计算机学院,江苏 无锡 214122)摘要:器官损伤死亡率高,严重威胁着人类的生命安全。人体内脏形态多样,解剖结构复杂,因此器官图像的准确分割有助于医生进行诊断。医学图像对高精度分割模型的需求很大,然而,大多数医学图像分割模型都是直接从一般的图像分割模型迁移过来的,常常忽略了浅层特征信息以及边界的重要性。为解决该问题,提出使用注意力门和点采样方法获得高质量分割边界的图像分割模型。在常用的肝脏医学图
2、像数据集 CHAOS 上对该模型进行评估,平均Dice达到0.946 7,平均IoU 达到0.962 3,平均F1 Score 达到0.935 1,证明该模型可同时学习图像细节特征和全局结构特征,能更好地对肝脏图像进行分割。关键词:医学图像分割;U-Net;注意力门;点采样技术DOI:10.11907/rjdk.221218开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391.41 文献标识码:A文章编号:1672-7800(2023)002-0015-06PRA-UNet3+:Full-scale Connected CT Liver Image Segmentat
3、ion ModelZHONG Jing-wei(School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China)Abstract:Organ lesions have a high mortality rate and seriously threaten the safety of human life.The internal organs of human body are diverse in form and complex in anatomical struc
4、ture,accurate segmentation of the organ assists the doctor in making the diagnosis.High precision segmentation model is required for medical image.However,most segmentation models are directly transferred from the general image segmentation model.These models often ignore the importance of shallow f
5、eature information and boundaries.In order to solve this problem,attention mechanism and point sampling technique are proposed to obtain high quality segmentation boundary.The model was evaluated on CHAOS,a commonly used liver medical image dataset,and the average Dice was 0.946 7,the average IoU wa
6、s 0.962 3,and the average F1 Score was 0.9351.It is proved that this model can learn both the detail features and the global structure features of the image,and can perform better segmentation of the liver image.Key Words:medical image segmentation;U-Net;attention gate;point sampling technique0 引言近年
7、来,由于不健康的饮食与作息习惯,全球肝癌发病率持续上升,据世界卫生组织/国际癌症研究机构统计报告1,2020年全球肝癌新发病例数为90.6万例,其中中国占全球新发肝癌病例的45.3%,肝癌已经成为影响我国居民健康的重大公共卫生问题。多种原因都可导致肝癌发病率升高,且肝癌起病隐匿、早期发现困难、中晚期治疗复杂且效果差异大,因此当今肝癌治疗依然是一个比较困难的医学问题。随着医学影像技术与计算机技术的发展,许多研究者尝试用计算机技术解决癌症患者的早期确诊问题2-3,为癌症治疗争取宝贵时间。器官定位与图像分割是诊断治疗的第一步,但由于医学图像,尤其是CT图像对比度较低,且目标不明确,医生在诊断时通常需
8、耗费大量时间与精力来估计器官的位置和大小,个人经验也会影响诊断结果,导致在严肃的医学诊断结果中夹杂了主观性。因此,应用计算机技术辅助诊断,构建一种精确、快速收稿日期:2022-03-04基金项目:国家自然科学基金项目(61876072,61902153,62072243,61772273);国家重点研发计划项目(2017YFC1601800);中国博士后科学基金项目(2018T110441);江苏省六大人才高峰项目(XYDXX-012)作者简介:钟经纬(1995-),男,江南大学人工智能与计算机学院硕士研究生,研究方向为医学图像分割。2023 年软 件 导 刊的器官图像分割方法对癌症诊断及早期
9、治疗具有重要意义。1 相关工作当前的器官图像分割方法很多,主要分为传统图像分割方法和基于深度学习的图像分割方法。1.1传统图像分割方法传统图像分割方法主要包括基于阈值、边缘和图论的分割方法。基于阈值的分割方法的基本思想是基于图像灰度特征计算一个或多个灰度阈值,并将图像中每个像素的灰度值与阈值相比较,最后将像素根据比较结果分到合适的类别中。因此,该类方法最为关键的一步就是按照某个准则函数求解最佳灰度阈值。Prewitt等4提出一种全局单阈值分割方法,即直方图双峰法(mode 法)。基于边缘的分割方法基于灰度值的边缘检测,是建立在边缘灰度值会呈现出阶跃型或屋顶型变化这一观测基础上的方法。阶跃型边缘
10、两边像素点灰度值存在明显差异,而屋顶型边缘位于灰度值上升或下降的转折处。Canny5提出一种边缘角点和兴趣点检测器,命名为Canny边缘检测器。基于图论的分割方法将图像分割问题与图的最小割问题相关联,其本质就是移除特定的边,将图划分为若干子图,从而实现分割。目前基于图论的方法有 GraphCut6、GrabCut7、Random Walk8等。1.2基于深度学习的图像分割方法近年来,随着计算机技术的快速发展,深度学习技术开始大量应用于医学图像分割领域。早期,半自动分割9是一种常见的分割手段。在进行医学图像分割时,因为感兴趣目标的不同以及不同类型图像的差异,没有一个普遍适用的分割方法。对于同一模
11、态的图像,如果不能充分利用感兴趣目标和一些先验信息,仍然无法获得精度较高的分割结果。该阶段的分割手段往往需要一定的手工干预,才能得到令人满意的分割结果。随后,基于卷积神经网络(Convolutional Neural Network,CNN)或循环神经网络(Recurrent Neural Network,RNN)的分割方法开始涌现,可以快速、准确地获取图像的自然分割结果。Long等10提出全卷积神经网络(Full Convolutional Neural Network,FCN)用于图像语义分割,并取得了很好的效果。FCN 能够准确、完整地定位与分割医学图像中的器官和病变部位,对患者的后续治
12、疗具有重要意义,因此得到了迅速发展。Olaf等11提出的 U-Net网络结构特别适用于医学图像分割领域,采用编码解码器结构,通过跳跃连接巧妙地结合了高层和低层信息,解码层的深层抽象信息能更好地利用编码层传输的浅层信息,使得图像分割效果较好。随后,许多学者对 FCN和 U-Net进行了研究,并在此基础上提出许多新的用于医学图像分割各细分领域的网络结构。例如,Bi等12提出一种新的ResNet级联网络,融合多尺度信息逐步精确定位肝脏图像边界;DenseNet13改进了卷积块之间的连接方式,使每个卷积块都与其之后的卷积块残差相连;Kaluva等14提出一种全自动的两阶段级联网络,第一阶段进行肝脏图像
13、分割,第二阶段使用第一阶段的分割结果进行肝脏定位;Li等15提出H-DenseUNet探索肝脏和肿瘤图像分割的混合特征;Christian等16提出一种改进的CT和MRI心脏图像分割方法;Liao等17提出一种利用卷积神经网络检测CT图像中恶性结节的方法。另外,一些通用的医学图像分割网络也相继被提出,例如Alom等18提出R2U-Net,将剩余单元与RNN结合;Diakogiannis等19提出ResUNet-a,该网络是对R2U-Net的一种改进,增加了剩余连接数,并结合了金字塔场景分辨率池和多任务推理;Zhou等20提出UNet+,主要对跳转连接部分进行了改进;Li等21引入注意记忆,并提
14、出了ANU-Net;Huang等22通过结合多尺度能力改进U-Net,提出了UNet 3+网络模型。近年来基于Transformer的医学图像分割方法也不断涌现,例如 Chen 等23提出 TransUNet,首次将Transformer引入医学图像分割领域,一方面把编码器卷积块替换为 Transformer 块,提取全局上下文的输入序列信息,另一方面基于卷积的解码器进行上采样,然后与高分辨率的卷积特征图相结合,实现精确定位;Valanarasu等24提出 Medical Transformer,采用局部全局训练策略(LoGo),进一步提升模型分割性能。为了提高医学图像分割精度,本文在 UNe
15、t 3+网络基础上引入注意力门和点采样技术。注意力门可使网络在训练过程中更加关注分割目标区域,点采样方法可提高模型判断分割目标边缘像素类别的能力,改善目标边缘分割效果。通过在肝脏医学图像数据集 CHAOS25上进行实验,本文提出的模型PRA-UNet3+都表现出一定的性能优势,在视觉感知上的分割效果也有明显提升。2 网络结构2.1注意力门注意力门(Attention Gate)是由 Oktay 等26提出的,在网络中引入注意力门,可帮助模型增强对目标区域的学习。注意力门通过同一级编码器特征与深层解码器上采样特征,学习到一个关注分割目标结构的注意力系数,以帮助分割网络的重点关注位置。因为不断进行
16、下采样,获得了更大的感受野,但细节被抽取,损失了语义信息,而浅层编码器的信息更加丰富,所以浅层的编码器信息对注意力系数的学习也是有帮助的。本文注意力门的结构设计不仅融合了同一层编码器信息,而且进一步融合了所有比该层更浅层的编码器信息。注意力模块如图1所示。PRA-UNet3+中注意力门计算过程如下:注意力门有两个输入:一是编码器特性(f),该特性由浅层编码器和同层编码器特征组成,二是上采样信号(g),该信号是所有 16第 2 期钟经纬:PRA-UNet3+:全尺度跳跃连接CT肝脏图像分割模型深层解码器上采样信息特征融合的结果;经过卷积运算(Wf,Wg)和BatchNorm运算(Bf,Bg)后,将其各自的输出进行特征融合;特征融合结果随后被输入到激活函数(ReLU,1(x)=max(0,x)中;被激活后,该特征再次经过卷积运算(W)和 BatchNorm 运算(b);将结果输入sigmoid(2(x)=11+e(-x)激活函数计算注意系数(),让参数在注意力门迅速收敛;最后将注意力系数()逐点乘以编码器特征以获得输出。式(1)-式(3)总结了注意力门计算过程:F=1(WTf f+bf)+