收藏 分享(赏)

基于改进的UNet图像分割方法研究.pdf

上传人:哎呦****中 文档编号:3062862 上传时间:2024-01-19 格式:PDF 页数:4 大小:1.95MB
下载 相关 举报
基于改进的UNet图像分割方法研究.pdf_第1页
第1页 / 共4页
基于改进的UNet图像分割方法研究.pdf_第2页
第2页 / 共4页
基于改进的UNet图像分割方法研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 7 期8计算机应用信息技术与信息化基于改进的 UNet 图像分割方法研究代恒军1 DAI Hengjun 摘要 针对部分图像中由于背景复杂和边缘模糊造成的分割不准确问题,提出了一种基于深度卷积神经网络的复杂图像分割方法,将语义分割的思想与图像检测相结合,使用编码-解码网络结构,基于 UNet 网络进行改进。编码器采用深度残差网络 ResNet 提取图像特征,解码器通过转置卷积进行特征的上采样,同时对编码器的特征进行裁剪操作,再与上采样的特征进行融合,融合后的特征既包含高维的抽象信息,也包含低维的细节信息,加强了网络对特征的学习。在公开数据集上的实验结果表明,该方法的分割准确率达

2、到 94%,准确率和召回率均达到 80%以上。关键词 深度学习;UNet;图像分割;编码-解码网络结构;卷积神经网络;地理信息doi:10.3969/j.issn.1672-9528.2023.07.0021.安徽省基础测绘信息中心 安徽合肥 2300000 引言在计算机视觉领域的多个分支中,图像分割是一个十分关键的方向,其目的是将输入图像中的各个像素点进行归类。根据图像分割的发展历程,可以将其划分为两类传统图像分割方法和基于卷积神经网络的图像分割方法。起初传统的图像分割方法主要有阈值分割法1和区域分割方法2。阈值分割法的原理是选取一个合理的图像像素阈值,利用该阈值对目标图像中的目标像素与背景

3、像素进行分割;而区域分割方法需要将图像划分为不同区域,从各个区域中抽取特征,再进行归类与合并,一次得到最后的分割结果,过程繁琐且效率低。传统图像分割方法更加适用于背景较为简单的图像。随着深度学习技术的不断发展,卷积神经网络在提取图像特征方面体现出巨大的优越性。基于卷积神经网络的语义分割需要先通过特征提取网络提取抽象特征,再通过上采样从抽象特征中得出图像上每个像素所对应的类别。当前利用卷积神经网络进行图像分割的效果已大大优于传统的分割算法。目前主流的基于神经网络的图像分割网络有全卷积网络(fully convolutional network,FCN)3、U 型网络(UNet)4、DeepLab

4、 深度卷积网络5以及金字塔场景分析网络(pyramid scene parseing network,PSPNet)6等。1 相关工作1.1 UNet 网络UNet 网络结构是 Ronneberger 于 2015 年在 MICCAI 会议中提出,该网络结是典型的编码器-解码器结构。其中编码器利用卷积和池化等操作进行特征的提取,逐层降维,获取低维空间特征。解码器则根据编码器提供的信息,通过多尺度特征融合、上采样等方法对细节特征进行修复,用于复原因上采样过程中损失的特征图中的高层次抽象特征,获得更高的精度。由于该网络是一个对称的 U 型结构,因此被命名为 UNet 网络。UNet 最初在生物医学

5、图像分割中获得成功,相比于典型CNN卷积神经网络,该网络需要的训练图像更少,得到的结果更精确。UNet对输入训练的图像都经过切块处理,相当于数据增强,使得其对训练的数据集规模所需要求不大,在少量样本输入的情况下也能获得优异的分割结果。如图 1所示,UNet 结构共分为 5 层,网络主要由卷积和池化以及上采样操作组成,图中灰色箭头操作表示的是将下采样层中的特征图复制并进行裁剪,然后与对应的上采样层进行连接。图 1 UNet 网络结构1.2 基于编码器改进的 UNet 网络UNet 卷积层和池化层在信息传递中普遍存在信息丢失等问题,并由于其构造简单,相比于 ResNet,深度较浅,获取的语义信息不

6、足7。为克服上述问题,本文将残差网络与UNet网络进行结合,使用ResNet50作为主干特征提取网络,2023 年第 7 期9计算机应用信息技术与信息化记为 Res50-UNet。采用 UNet 的对称结构和跳跃连接,网络结构如图 2 所示。图 2 Res50-UNet 网络结构与传统的 UNet 网络相比,本文改进的 Res50-UNet 有以下几点优势。(1)将传统 UNet 两条路径中共 5 层的普通卷积下采样层替换为残差结构的残差卷积模块,加深了网络层数,提高了网络的分割的性能,同时又有效防止了因加大网络深度而带来的梯度消失问题,并加快训练收敛的速度。如图 3 所示,在 Res50-U

7、Net 网络中,残差模块被定义为本体映射和残差映射的和。图 3 残差结构 A 和残差结构 BF(Xl)和 Xl 维度一致。X=F(Xl)+Xl (1)其中,F(Xl)残差;Xl输入;X残差块的输出。对公式(1)求偏导可得:()1lllF XXXX=+(2)由公式(2)可知,其偏导数的值是始终大于 1。因此随着网络层数的增加,不会出现梯度消失现象,保证了网络的收敛速度。图 3 中的 Batch Normalization 层将每个 batch 在编码器中的每一级特征都进行归一化操作,这样使得每级分布都相对稳定,可以在很大程度上令神经网络更加稳定性,加快收敛速度。(2)本文使用转置卷积层代替原 U

8、Net 中解码器中的池化层,这样使得在调整特征图大小时,对不同像素点的权重进行更好的分配,减少了重要信息的丢失。(3)因前景像素与背景像素存在不均衡样本分类的情况,本章使用新的损失函数(generalized dice loss,GDL)解决不均衡样本分类问题。传统的 UNet 主要应用于医学图像分割中,通常只有两种分类,所以采用的是二分类交叉熵损失函数 BCELoss。(3)其中,N训练总数;hi第i个像素的真实类别;pi0,1该像素被预测为前景的概率,当前景像素与背景像素差距较大时,hi=0 的几率增加,网络严重偏向背景,导致网络的梯度更新方向出现偏差,无法有效地学习到裂缝相关信息。为了克

9、服上述缺陷,本文使用新的损失函数 GDL,能得到效果更好的模型,其计算公式如(4)所示。212121+=mn mn mnnmn mn mnnpywpywG(4)(5)其中,ynm类别 n 在点 m 处的实际像素类别;pnm该点的预测值;wn各个类别的权重。1.3 ROF 模型考虑到图像背景复杂、噪声多会导致实验结果产生较大的误差。所以在进行传统方法的对比实验前需要对图像进行降噪处理。在对图像降噪前需要先对其进行图像灰度化处理。本章图像灰度化处理采用的是平均值法,取 RGB 图像的三通道像素值的平均值作为灰度值。计算方法如公式(6)所示。(6)其中,R(x,y),G(x,y),B(x,y)3 通

10、道的像素值。将图像灰度化处理后使用 ROF 降噪算法,ROF 模型具有良好的性质,在保留图像的边缘和结构信息的同时,可以使处理过的图像更加平滑8。假设噪声图像为:v(x,y)=u0(x,y)+n(x,y)(7)其中,u0(x,y)实验需要的清晰图像;n(x,y)图像中的噪声;v(x,y)降噪前的图像;x,y像素点横纵坐标。基于 ROF 的图像降噪问题可以描述为求极小值问题,ROF 模型其实是求解拉格朗日方程问题。图像差分的 L1 分数公式如下所示。2023 年第 7 期10计算机应用信息技术与信息化2200000,()(1,)(,)(,1)(,)x yTV uuxyux yux yux y=+

11、(8)即220,()xyx yTV uuu=+描述该像素点的灰度变化率。实验需要降噪后的图像与原图像在整体灰度上相等,假设噪声 n(x,y)的均值为 0,如公式(9)所示。0,(,)(,)x yx yux yv x y=(9)同时还有一个约束条件如公式(10)所示。20,(,)(,)x yux yv x y=(10)其中,2噪声 n(x,y)的标准差。可将 ROF 模型描述为在上述两式约束下,使用拉格朗日数乘法求解 TV(u0)的最小值。2 实验2.1 数据集本文采用公开数据集 PASCAL VOC20129作为实验数据集。该数据集广泛应用于计算机视觉领域,主要为图像分类、目标检测、图像分割三

12、类任务服务,包含 bird、cow、motorbike、sofa、chair 等 20 个图像类别,将近 20 000 张图像。PASCAL VOC2012 文 件 由 ImageSets、Annotations、JPEGImages、SegmentationObject、SegmentationClass 五个模块组成,数据集中的每张图片对应一个 XML 文件,其中声明图像数据来源、路径、大小、位置等元信息。2.2 评价指标本实验使用的评价指标是精确率,召回率进行分析,DICE 相似系数(dice similarity coeffi cient,DSC)。DSC 的定义如公式(11)所示。k

13、DSC=2TP/(FP+2TP+FN)(11)其中,TP图像中被正确分割裂缝像素数目;FP图像中被误分割为裂缝的背景像素数目;FN图像中误分割为背景的裂缝像素数目。2.3 实验设置为了检验改进方法 Res50-UNet 的有效性,除了测试改进的算法在图像上的分割效果外,本文还设置基于传统数字图像处理技术的阈值迭代分割方法作为其中一组对比实验。首先将图像由 RGB 图像转为灰度图像并利用 ROF 模型进行降噪处理,再将预处理后的图像灰度值的均值作为初始阈值C0,初始化阈值 C1并赋值为 0,将其与阈值 C1求绝对值,若不等于 0,则继续遍历图像的每一个像素点,计算出新的C0,当阈值C1与阈值C0

14、相等,即求出所需的最佳分割阈值C,计算如公式(12)所示。01()/2CCC=+(12)该方法可以克服直方图双峰特性不够突出的缺陷,更能代表传统算法,方便后期对比,方法流程如图 4 所示,寻找的最佳阈值直方图示例如图 5 所示,其对应的直方图的最佳阈值 C 为 109。图 4 阈值迭代分割方法流程图图 5 最佳阈值直方图示例2.4 实验结果与分析本文网络在训练过程中使用损失函数值 loss,f 分数(f-score),以及学习率的变化进行网络评估。其中 f 分数综合了准确率和召回率的衡量标准,是精确率和召回率的调和平均。其定义如公式(13)所示。f-s=(1+2)PR/(2P+R)(13)其中

15、,P-精确率;R-召回率。为了平衡精确率和召回率,取 1。损失函数值loss如图6(a)所示,学习率如图6(c)所示,可以看出在迭代周期次数为 120 次时趋于稳定,网络总共训练了 200 次。前 50 次是冻结主干特征提取网络,可以在节约时间的同时防止训练初期权值被破坏。f-score 如图 6(b)所示,在训练到 120 次迭代时,f-score 达到 0.94 左右,虽然后面迭代训练其有所改进,综合考虑损失函数值和学习率,本次选择 120 次训练的权重参数。2023 年第 7 期11计算机应用信息技术与信息化(a)损失函数值 loss (b)f-score(c)学习率图 6 网络训练过程

16、中的各性能变化趋势为了验证本文方法的有效性,将该方法与 UNet 以及传统阈值分割法的分割结果做对比,结果如表 1 所示,并绘制图 7 所示 P-R 曲线。表 1 不同方法的实验结果对比图 像阈值迭代分割 UNetRes50-UNetPreRecDSC PreRecDSC PreRecDSC 10.1070 0.8190 0.1893 0.7436 0.0044 0.00880.78220.30770.441720.3747 0.9767 0.5416 0.6818 1.0000 0.81080.91490.92730.921130.4496 0.9854 0.6175 0.8191 0.98

17、15 0.89290.57710.66140.6164 40.7468 0.9746 0.8456 0.5909 0.1290 0.21180.60730.65460.6301 50.0721 0.9436 0.1340 0.4403 0.7918 0.5659 0.55240.56650.5594 60.3912 0.9378 0.5521 0.5651 0.8956 0.6930 0.66920.86110.753170.7673 0.9596 0.8527 0.5134 0.9426 0.6647 0.60560.97440.747080.5399 0.9331 0.6840 0.697

18、1 0.8916 0.7824 0.86750.90450.885690.4095 0.9359 0.5697 0.6510 0.8951 0.7538 0.84430.81650.8302100.3211 0.9071 0.4743 0.6595 0.8974 0.7603 0.81420.86910.8408 Mean 0.4179 0.9373 0.5781 0.6362 0.7429 0.6854 0.72347 0.75431 0.7386从表 1 可以看出本文方法得到的精确率和 DCS 指标均由于其中两种方法,而召回率略低于传统阈值分割方法,这是由于数据集中图像的噪声较多,虽然经过

19、降噪处理,但仍然过度分割,因此精确率较低,召回率较高。但综合其他指标来看,本文方法最优。3 结束语针对图像中背景复杂和边缘模糊造成的分割不准确问题,本文改进了一种基于深度卷积神经网络的复杂图像分割方法,将语义分割的思想与图像检测相结合,可以在背景复杂的图像上直接对边缘进行语义分割,无需预先提取感兴趣区域,能够自主学习边缘特征,可以获得更多的高阶特征信息,利于识别精度的提高。实验结果表明,本文方法在精确率、召回率、DSC 等指标上都优于经典的传统阈值分割方法和传统的语义分割UNet神经网络,证明了其对图像分割的适用性,后期可将该技术方法应用于测绘地理信息领域。参考文献:1 YANG Y,YANG

20、 C,HUANG C.Thin crack observation in a reinforced concrete bridgepier test using image processing and analysisJ,Adv.Eng.Softw.2015(83):99108.2 高俊祥.基于图像处理和机器学习的桥梁检测新技术研究D.南京:东南大学,2018.3 LONG J,SHELHAMER E,DARREL T.Fully convolutional networks for semantic segmentationJ.IEEE transactions on pattern an

21、alysis and machine intelligence,2015,39(4):640-651.4 RONNEBER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentationJ.Medical image computing and computer-assisted intervention,2015,9351:234-241.5 CHEN L C,PANDREOU G,KOKKINOS I,et al.DeepLab:semantic image segmentation wit

22、h deep convolutional nets,atrous convolution,and fully connected CRFsJ.IEEE transactions on pattern analysis and machine intelligence,2018,40(4):834-848.6 ZHAO H,SHI J,QI X,et al.Pyramid scene parsing networkJ.IEEE computer society,2016,17:38-45.7 林志斌,黄智全,颜林明.基于 Unet 的高分辨率遥感图像地物分类 J.电子质量,2020(11):69-76.8 许秋滨.图像去噪的 ROF 模型的几个新的算法 J.应用数学学报,2019,42(04):470-481.9 JITENDRA M,SRINIVASU P N,SRINIVAS A S,et al.Crack detection on concrete images using classification techniques in machine learingJ.Journal of critical reviews,2020,7(9):1236-1241.(收稿日期:2023-04-08 修回日期:2023-05-30)图 7 P-R 曲线

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2