1、2023 年第 7 期208智能技术信息技术与信息化基于改进 U-Net 模型的路面裂缝智能识别王二浩1WANG Erhao 摘要 针对路面细小裂缝难以提取及样本不平衡问题,提出了一种基于改进 U-Net 模型的路面裂缝识别方法,以实现路面裂缝的精准识别。在下采样的过程中用残差块代替了原本网络的卷积块,减小网络复杂度以及改善网络过拟合现象,降低网络发生梯度爆炸的概率;在编码器和解码器过渡阶段,引入空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)网络结构,增加网络的感受野,获取丰富的上下文信息;在编码器和解码器连接过程中,使用 Attention Ga
2、te 代替原来的直接相加操作,提取图像的低级特征,减少细节信息的损失;针对正负样本不平衡问题,提出了将交叉熵损失函数和 Focal 损失函数相结合的混合损失函数。实验结果表明,该网络模型具有较好的泛化能力,平均交并比(mean intersection over union,)评价指标达到 81.24%。与传统算法相比,有效地提高了识别的准确度,减少了特征细节信息的损失,提高了对路面裂缝的检测能力。关键词 图像处理;图像识别;机器视觉;U-Net;正负样本不平衡doi:10.3969/j.issn.1672-9528.2023.07.0521.长安大学工程机械学院 陕西西安 7100640 引
3、言随着路面不断在大型车辆碾压和自然损耗,路面极易产生裂缝,随着时间的推移,路面会急剧恶化,最终会危害路面行车安全,这需要各地区公路局定期检测裂缝及分析成因,及时开展维修工作。但是传统的路面裂缝检测方法效率较低、耗时较长、漏检误检率较高及时效性较差,如何提高对初始形成的裂缝快速检测是当前的一个研究热点。现在对路面裂缝识别的方法主要有:基于阈值的分割算法:根据裂缝区域与正常的路面图像之间的灰度值不同,设定阈值将二者区分,常用的方法有 OTSU 算法1等;基于边缘检测的分割算法:根据裂缝图像和正常路面图像之间的边界灰度值有明显的跳跃现象进行裂缝分割,常用的方法用Canny 算子边缘检测2,Sobel
4、 算子边缘检测3等;基于区域的分割算法:通过将图像划分为具有相似像素特征的各种组件来进行分割,常用方法如区域生成法4;基于神经网络的分割算法:随着近年来机器学习技术的不断快速发展,在图像分割、语义分割、目标检测、姿态估计等领域取得了突破性进展,并取得了比传统方法精度更高,速度更快的结果,常用方法如 FCN5、SegNet6、U-Net7及 U-Net+8等网络。随着 2012 年,AlxeNet9获得 ImageNet 分类竞赛冠军,深度学习进入了迅速发展期。近年来,以 U-Net 网络为代表的深度学习模型在分割任务中取得了很好的效果,促使很多学者不断深入研究 U-Net 网络,并应用在路面裂
5、缝的检测工作中。如陈泽斌等人10提出基于生成对抗网络的路面裂缝分割算法,通过生成器网络与判别器网络进行联合对抗训练逐步增强生成器网络的性能,但该方法的模型参数量较大,训练极为不易;高振阳11提出了一种基于 U-Net 网络改进神经网络架构自动搜索模型,并提出了轻量化的移动端神经架构搜索全卷积网络模型检测裂缝,虽然该模型的计算量较少,但是其处理复杂裂缝图像时噪声较大,准确率较低;甘霖等人12针对裂缝图像数据集中正负样本不均匀,提出了一种将Focal 损失与活动轮廓相结合的新损失函数,但针对复杂裂缝分割的准确率较低。目前大多数路面裂缝识别模型都通过改进 U-Net 模型进行实现,但原始的 U-Ne
6、t 模型对特征的识别及学习能力有限,存在分割出的裂缝有噪声、裂缝细节部分丢失、对裂缝和背景区域无法有效区分等问题。基于以上问题,本文提出了基于改进 U-Net 模型的路面裂缝智能识别。1 基本原理及网络模型1.1 U-Net 原理U-Net 网络是经典的语义分割网络之一。U-Net 网络包括左边的编码器和右边的解码器,编码器是由两个 3*3 卷积层和步长为 2 的池化层不断下采样组成,每次下采样的过程 2023 年第 7 期209智能技术信息技术与信息化中特征层的通道数翻倍,分辨率降为原来的一半;解码器是由编码器得到的特征层上采样,并与编码器得到的特征层进行短连接得到,之后再通过两个 3*3
7、卷积层;在网络的最后一层,使用 1*1 卷积将特征层的通道数映射到对应的类别数。1.2 残差块U-Net 网络中编码器和解码器中的两个 3*3 卷积层提取特征信息的能力有限,对于图像的细节信息容易丢失,且容易造成梯度爆炸,而 ResNet13网络中的残差块对于特征信息的提取能力较强,且具有很好地防止梯度爆炸的效果,能搭建出更深层的网络,因此将 ResNet 网络中的残差结构应用到U-Net 网络中,能使网络进一步对特征图提取更加丰富的细节信息。残差块表达式为:y=F(x)+x (1)式中:x 为输入;y 为输出;F(x)为待学习的残差映射函数。原始 U-Net 网络中两个 3*3 卷积层如图
8、1(a)所示,ResNet 网络中的残差结构如图 1(b)所示。(a)原始卷积层 (b)残差块图 1 卷积层1.3 ASPP 结构裂缝数据集中裂缝尺寸大小存在不同,U-Net 网络对于大尺寸的裂缝具有很好的分割效果,但对于小尺寸的裂缝效果较差。如果想要增强网络对图像的提取能力,就要增大感受野,需要用更大的卷积核,但这会使网络的模型增大,计算量增加。而空洞卷积在不同的扩张率能获得不同的感受野,但网 络 的 参 数 量不 会 增 加,所以 应 用 空 洞 卷积 能 很 好 地 解决 这 一 问 题。ASPP 模 块 是 在DeepLabv214提出的,如图 2 所示,主要有不同扩张率的空洞卷积所组
9、成,包括扩张率为 6、12、18 的空洞卷积、1*1 卷积层和全局平均池化层。ASPP 的主要作用是增大对特征图的特征提取,扩大感受野的面积,弥补由于下采样过程中由于降低了图像的分辨率,造成部分细节信息的损失,并能提高对图像中不同尺度物体信息的捕获,提高网络的特征提取能力。1.4 Attention Gate 结构U-Net 网络对于道路裂缝分割会存在很多的误判区域,将背景预测成裂缝区域,因此会降低分割精度。Attention Gate 是 在 Attention U-Net15中 提 出 的,如 图 3 所 示。Attention U-Net 主要的改进之处在于用 Attention Gat
10、e 代替了原始U-Net的短连接,而Attention Gate能够抑制背景的区域,突出前景区域的显示特征,增强对前景图像的特征提取能力,以减少细节信息的损失,提高分割效果。图 3 Attention Gate 结构Attention Gate 的主要原理为 xl:编码器下采样得到特征层,尺寸为 FlHxWxDx,经过 1*1 卷积后得到TlxW x,解码器上采样得到特征层 g,尺寸为 FgHgWgDg,经过 1*1 卷积后得到TgW g,将TlxW x和TgW g相加后经过 ReLU 激活函数后得到1()TTlgxgW gW xb+,再经过 1*1 卷积后得到 ql,对 ql进行 Sigmo
11、id 激活函数处理后得到最终的注意力权重为,再与 xl相乘得到最终的结果lx。具体的操作流程公式如公式所示。1()lTTlTxggqW xW gbb=+(2)2(,;)llq x g=(3)llxx=(4)1.5 损失函数交叉熵损失函数常用于分类问题,而图像分割本质也是将图像中的像素点归到不同的类别中,因此也适合图像分割任务。但由于裂缝数据集中背景像素量占比很大,裂缝和背景的样本不平衡,模型可能陷在局部最优,无法收敛,以致模型在泛化能力上有很大问题。为了解决数据集中样本不平衡问题,同时选择交叉熵损失函数和 Focal 损失函数。交叉熵损失函数的表达式为:(1)(1)ceLylogpy logp
12、=+(5)式中 y 表示实际的标签值,p 表示预测的标签值。Focal 损失函数的表达式为:图 2 ASPP 结构2023 年第 7 期210智能技术信息技术与信息化(1)(1),=0=(1),=1FLp logpif yLplogpif y (6)式中 表示样本平衡系数,是用来减少损失函数对应种类较多的样本,令=0.5,=2。总的损失函数表达式为:(1)ceFLLLL=+总 (7)式中 取 0.5。1.6 改进的 U-Net 模型为了有效的利用 U-Net 网络对路面裂缝进行识别,鉴于残差块、ASPP 及 Attention Gate 的优点,搭建一种改进的路面裂缝分割网络 U-RPANet
13、,网络结构如图 4 所示。其中 GA代表 Attention Gate 模块,C 代表 concatenate 操作。图 4 U-RPANet 网络结构编码器中每个网络层均有两个残差块组成,每两个网络层之间通过步长为 2,卷积核为 2*2 的最大池化层进行连接;编码器和解码器之间通过 ASPP 连接;在解码器阶段,先对编码器生成的特征层上采样,与编码器生成的特征层进行 Attention Gate 操作,再与上采样生成的特征层进行concatenate 操作,再经过两个残差块;在网络的输出部分,由 1*1 卷积层降维到类别数进行输出。2 实验2.1 数据集在 CrackForest Datas
14、et16上对本文提出的网络模型进行训练、验证及测试,CrackForest Datase 是由 118 张原始图片以及 118 张标签图片所构成的,由于 118 张图片进行网络训练,数据集数量太少,考虑数据增强的方式增加数据量。对118 张原始图片和标签采取旋转 90、旋转 270、调整亮度、调整对比度、调整色度、调整饱和度、左右翻转及水平翻转共计 8 种数据增强方式,增强后的数据集数量由原来的118 张增加到 1062 张,并按照 8:1:1 的方式划分训练集、验证集和测试集,共得到训练集 848 张、验证集 107 张及测试集 107 张。2.2 实验环境以 Pytorch 深度学习框架为
15、基础,在 pycharm2020 集成开发环境中训练,使用 Cuda11.1 进行加速。工作站配置:操作系统为 Windows10,CPU 为 Inter i9-10900KA,显卡为英伟达 RTX2080Ti,内存为 DDR4 32 G。2.3 训练参数配置优 化 器 采 用 AdamW;学 习 率 的 调 整 策 略 采 用CosineAnnealingLR 方式;开始学习率为 1e-3,最小学习率为1e-5;batch size 为 8;迭代次数为 400 次;所有模型在训练过程中将输入图像尺寸缩放到256256像素,使用随机旋转、随机翻转及随机裁剪的数据增强方法对图像数据进行随机扩增,
16、以增强网络模型的鲁棒性。2.4 实验评价指标为了定量评估提出改进算法的分割性能,使用平均交并比(EmIoU)、平均像素准确度(EMPA)、精确率(Eprecision)、召回率(ERecall)、F1得分(EF1-score)和验证损失值作为本次实验中评价算法性能优劣的指标。其各个评价指标的表达式如下所示,其中 TP 表示标签为裂缝,测试结果也为裂缝;FP 表示标签为背景,测试结果为裂缝;FN 表示标签为裂缝,测试结果为背景;TN 表示标签为背景,测试结果也为背景。平均交并比:mIoUTPETPFPFN=+(8)像素准确性:MPATPTNETPFPFNTN+=+(9)精确率:Precision
17、TPETPFP=+(10)召回率:RecallTPETPFN=+(11)F1得分:12PrecisionRecallFscorePrecisionRecallEEEEE=+(12)平均交并比表示预测结果与标签的重合度;像素准确性表示标签中正确分类的像素点个数所占的比例;精确性突出误检像素所占比例;召回率突出漏检像素所占比例。3 结果分析3.1 不同模型性能对比为了评价本文提出改进方法的性能,验证其有效性,将本文提出的改进 U-Net 与 U-Net、U-Net+原始算法作对比,在 CrackForest Dataset 进行训练、验证及测试,使用相同的实验环境和训练参数,以确保对比结果的可信性
18、。不同算法模型验证损失的变化曲线对比如图 5 所示。2023 年第 7 期211智能技术信息技术与信息化图 5 不同模型验证损失从图 5 可以看出,随着训练次数的增多,验证损失值逐渐趋于平稳,所提算法与 U-Net 和 U-Net+算法相比,本文提出的 U-RPANet 网络验证损失下降较快,收敛的最终值也最小,说明本文提出的算法可有效降低特征信息的损失,提高分割效果。将三种模型分别训练 400 次,在测试集上得出平均交并比、平均像素精度、精确率、召回率及 F1得分如表 1 所示。表 1 不同网络在测试集上各个指标对比网络模型/%/%/%/%/%U-Net79.1599.0591.9487.9
19、086.97U-Net+80.3199.1094.7987.1487.92U-RPANet81.2499.1693.1188.1288.59从表 1 可以看出本文搭建的算法模型平均交并比为81.24%,比 U-Net 模型提高了 2.09%,比 U-Net+提高了0.93%,所提算法明显优于 U-Net 模型和 U-Net+模型,表明所提算法可以更好地提取路面裂缝特征,减少裂缝信息损失,提高分割精度。3.2 不同损失函数对比为了验证 U-RPANet 模型使用混合损失函数更具有优势性,将 U-RPANet 模型使用混合损失函数、交叉熵损失函数及 Focal 损失函数在数据集上进行训练测试及验证
20、,得到的实验结果如表 2 所示。表 2 不同损失函数对比试验结果 Loss/%/%/%/%/%72.9498.1698.3174.6787.9271.7298.0297.5373.7384.4381.2499.1693.1188.1288.59由表 2 可知,应用混合损失函数比单独应用交叉熵损失函数平均交并比高 8.3%,比单独应用 Focal 损失函数平均交并比高 9.52%,说明混合损失函数对裂缝的提取能力更高。这是由于交叉熵损失函数对于图像的分割更倾向于识别多类别,而本文类别数为 2,所以得到的平均交并比较低,而Focal 损失函数在类别不平衡样本上更具优势。综合利用交叉熵损失函数和 F
21、ocal 损失函数,即同时考虑到了多类别和数据集中样本不平衡问题,所以得到的分割效果较好。3.3 消融实验为了验证本文提出的改进 U-Net 算法模型能够提高路面裂缝的分割能力,通过消融实验来验证加入的残差块(residual block,RB)、ASPP 结构及 attention gate(GA)的先进性,不同的改进模块的分割性能比较如表 3 所示。表 3 不同改进模块的分割算对比U-NetRBASPP GA/%/%/%/%/%79.1599.0591.9487.9086.9780.8699.1392.0587.1088.3380.5299.0994.2786.6388.1480.5799
22、.0994.6387.4688.1681.0999.1292.6487.0988.5581.0599.1491.3688.3588.4881.1699.1392.5686.5388.6081.2499.1693.1188.1288.59表 3 得出了多种改进策略的分割算法结果,经过比较得出加入残差快、ASPP、Attention Gate 的算法模型相比于原始 U-Net 网络,平均交并比值分别提高了 1.71%、1.37%和1.42%,其中加入残差块网络的平均交并比提高最明显。同时可以看出加入两种改进策略也能提高网络的分割性能,且加入 ASPP 和 Attention Gate 提高的分割性
23、能最大,而同时加入三种改进策略比单独加入一种和两种改进策略更能提高路面裂缝的识别能力。3.4 不同模型预测结果对比将 U-Net、U-Net+及本文提出的 U-RPANet 网络在预测集上进行预测,部分结果如图 6 所示。(a)原始 (b)图像 (c)U-Net (d)U-Net+(e)本文 图像 标签 模型 模型 模型图 6 不同网络模型预测结果2023 年第 7 期212智能技术信息技术与信息化由图 6 可以看出,U-Net、U-Net+模型预测结果中会存在很大的噪声,且损失了裂缝部分细节信息,出现分割错误的现象,而 U-RPANet 网络在裂缝细节处分割效果较好,预测结果更加准确全面。4
24、 结论针对传统路面裂缝识别的方法检测精度低的问题,本文提出了一种基于改进 U-Net 模型的路面裂缝智能识别网络。通过将原始的两个 3*3 卷积层换成两个残差块,防止梯度爆炸,提取更丰富的细节信息能;引入 ASPP,连接起编码器和解码器,扩大感受野的面积,弥补由于下采样过程中由于降低了图像的分辨率,造成部分信息的损失,提高对图像中不同尺度物体信息的捕获,增强网络的特征提取能力;添加 Attention Gate,抑制背景区域,突出前景区域的显示特征,增强对前景图像的特征提取能力,提高分割效果;使用交叉熵损失函数和 Focal 损失函数结合的混合损失函数,用于解决数据集中正负样本不平衡的问题。在
25、CrackForest 数据集上进行相关实验,实验结果表明,所改进的算法相比于 U-Net 网络和 U-Net+网络对路面裂缝的分割准确性有很大的提升,对快速及准确识别路面裂缝具有重要意义。参考文献:1 朱鑫,漆泰岳,王睿,等.一种改进的用于裂缝图像分割的Otsu 方法 J.地下空间与工程学报,2017,13(z1):80-84.2DING L,GOSHTASBY A.On the canny edge detectorJ.Pattern recognition,2001,34(3):721-725.3 肖利芳,周道洋.Sobel 算子改进边缘检测算法在混凝土裂缝识别中的应用 J.软件导刊,2
26、017,16(1):112-114.4 周玉县,郑善喜,黄晓锋,等.基于区域生长法的建筑裂缝定量分析方法 J.低温建筑技术,2017,39(10):158-60.5SHELHAMER EVAN,LONG JONATHAN,DARRELL TREVOR.Fully convolutional networks for semantic segmentationJ.IEEE transactions on pattern analysis and machine intelligence,2017,39(6):640-651.6VIJAY BADRINARAYANAN,ALEX KENDALL,R
27、OBERTO CIPOLLA.SegNet:A deep convolutional encoder-decoder architecture for image segmentationJ.IEEE transactions on pattern analysis and machine intelligence,2017,39(12):2481-2495.7RONNEBERGER O,FISCHER P,BROX T.U-net:Convolutional networks for biomedical image segmentationC/Medical Image Computing
28、 and Computer-Assisted Intervention,Munich,Germany:Springer,2015:234-241.8ZHOU Z,RAHMAN SIDDIQUEE M M,TAJBAKHSH N,et al.Unet+:A nested u-net architecture for medical image segmentationC/Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support,Granada,Spain:Spring
29、er,2018:3-11.9KRIZHEVSKY,ALEX,SUTSKEVER,ILYA,HINTON,GEOFFREY E.ImageNet classification with deep convolutional neural networksJ.Communications of the ACM,2017,60(6):84-90.10 陈泽斌,罗文婷,李林.基于改进 U-net 模型的路面裂缝智能识别 J.数据采集与处理,2020,35(2):260-269.11 高振阳.轻量级深度学习模型在路面裂缝检测中的应用研究 D.长安:长安大学,2020.12 甘霖,谢爱荣,燕阳,等.基于改
30、进 U-Net 网络的混凝土表面裂缝分割 J.重庆邮电大学学报(自然科学版),2021,33(4):645-652.13HE K,ZHANG X,REN S,et al.Deep residual learning for image recognitionC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:770-778.14CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:Semantic image
31、 segmentation with deep convolutional nets,atrous convolution,and fully connected CRFsJ.IEEE transactions on pattern analysis and machine intelligence,2018,40(4):834-848.15OKTAY O,SCHLEMPER J,LE FOLGOC L,et al.Attention U-Net:learning where to look for the pancreasC/Conference on Medical Imaging with Deep Learning,Amsterdam:MIDL,2018:1-10.16YONG S,CUI L,QI Z,et al.Automatic road crack detection using random structured forestsJ.IEEE transactions on Intelligent transportation systems,2016,17(12):3434-3445.【作者简介】王二浩(1999 ),男,河南驻马店人,硕士研究生,研究方向:机器视觉、图像处理。E-mail:(收稿日期:2023-01-03 修回日期:2023-02-28)