改进的神经网络ADD-Unet用于河道图像的分割

资源描述

1、国外电子测量技术北大中文核心期刊：改进的神经网络用于河道图像的分割刘丹张建杰徐鸿哲刘尧兵（新疆大学机械工程学院乌鲁木齐）摘要：能够准确提取所拍摄图像中的河道，在基于无人驾驶的河道监测管理中是至关重要的任务。针对河道图像分割任务中，背景复杂，相似度高以及目标对象尺度不一等情况，提出了基于的改进网络模型。首先，通过多尺度融合的方式扩充感受野，并以多个比例捕捉图像的上下文信息，获取更精细的语义信息；其次设计密集跳接结构和密集块，一方面补偿损失的空间位置信息，一方面利用低级特征和高级特征之间的相互指导监督，提升特征提取的能力；最后在数据集上验证了新网络模型及其各模块的有效性。实验表明，经

2、过数据增强后，网络模型的类别平均像素精确度达到了，并与、和网络相比较，结果表明该模型有更优的分割性能。关键词：河道图像分割；多尺度融合；密集跳接结构；数据增强中图分类号：文献标识码：国家标准学科分类代码：；（，）：，；，；，：；收稿日期：引言近年来无人驾驶技术的发展愈演愈烈，将计算机视觉技术与无人船和无人机技术相融合的应用研究也越来越多，利用无人船在城乡内河进行水上作业便是对它的一个扩展，由于无人船航行时必须要规避河岸，因此对河道的准确分割是基础而又重要的任务。而利用深度学习处理相关问题也是目前的一个研究热点，深度学习在人工智能、机器视觉等领域的不断突破，为图像语义分割的研究指出了一个新

3、的方向。语义分割作为计算机视觉的一个重要分支，其通过对逐个像素的预测，为其分配所属的标签类别，所以图像的语义分割是像素级别上的分类任务。目前基于深度学习的河道分割应用在无人驾驶上的研究并不是很多，大多是基于遥感图像的田地、河流、建筑、道路等的分割。年，等对全卷积网络（，）的提出，首次将深度学习引入了图像语义分割任务中，使得语义分割任务向前迈进了一大步。针对北大中文核心期刊国外电子测量技术训练过程中随着网络层数的加深位置信息和细节信息丢失严重的问题，学者们又在的基础上陆续提出了基于编码解码结构的语义分割网络，如网络和网络。随后，基于多尺度融合的思想，提出了网络，旨在通过金字塔池化模块增

4、强网络上下文之间的信息，而等又在网络中对金字塔池化模块进行了改进，提出空洞空间卷积池化金字塔（，）结构。本文选择的网络最初是由等提出用于医学影像分割的，其由于能将高层语义和低层语义的细粒度表层信息联合起来，获得较高的分割精度和良好的鲁棒性而流行起来。由于在内陆河道的分割任务中，河道周围环境复杂，不同尺度的对象难以分割导致分割任务中出现类内不一致、类间不一致以及边界分割模糊等问题，因此在网络的基础上进行了改进，提出了分割方法，通过多尺度特征融合捕捉更详细的语义信息，以及密集跳接结构加强对河道边界的学习。网络结构作为典型的编码解码结构，其在编码部分进行目标特征的提取，在解码部分进行

5、上采样，对丢失的信息进行恢复，并且在跳接结构中将解码部分上采样层和相应编码部分的下采样层进行，达到信息的补充和特征信息堆叠的效果。在河道场景中，由于分割对象与背景颜色、亮度相近以及河面反光、反射的干扰，增加了模型分割的难度，在数据量比较有限的情况下，本文基于网络设计了图所示的网络结构来对河道进行分割。图结构多尺度特征融合网络由于单一的感知视野或尺度不能对不同大小的目标进行分割，为了提升模型对多尺度分割目标的感知能力，减少类间不一致的问题，在网络编码器后引入一个模块，采用个不同扩充率的卷积并行的结构，扩充率组合可以根据输入图像的大小和网络的深度进行设置，以便通过多尺度获取更多的上下文

6、信息。采用的空洞卷积结构，在保证分辨率的情况下，既扩充了感受野，又不会引入新的参数造成参数量的增加，但由于在卷积操作时是以零进行填充的，会忽略一些像素的作用，因此造成了部分特征信息的丢失，针对这一问题，在并行结构中又加入了一个的卷积。同时为了防止当扩充率增大时，卷积核有效权重减小的问题（卷积核有效性退化），再加入一个图像级特征进行全局平均池化操作获取全局特征，也可抑制河道复杂背景对学习河道特征的影响，然后通过卷积改变其通道维数，再通过上采样对其分辨率进行复原。最后将个并行支线进行堆叠和降维处理，其结构如图所示。图结构密集跳接结构和密集块在低级阶段，神经网络的感受野较小，特征图往往拥有更丰

7、富的空间信息，但获取的语义特征不佳；而在高级阶段，特征图尺寸减小，感受野不断增大，可以获得更加精细的语义信息，但会丢失空间信息。在跳跃连接部分加入密集连接结构，利用低级特征对高级特征的提取进行指导，既能细化特征又能弥补边界信息，增强网络的识别能力。结构如图所示，输入特征经过两个的卷积层获取更详细的语义特征，然后再和输入图相加（相当于一个残差结构），如精炼残差块（，）结构（图左侧）；对于不同尺度的特征表达，引入低级阶段的信息作为指导，学习更多的边界信息（图右侧），将经过得到的特征图和来自低级阶段的特征图进行，然后通过卷积恢复其通道数，随后通过通道注意力（）结构，为每个通道赋予相应的权重值

8、，对各通道进行重新标定，以突出河道特征，最后将结果作为两个分支分别输出，一支向后用于解码部分的跳接，一支向下先池化后卷积作为下一中的输入。在网络解码阶段的每个后加入密集块结构，其结构与相似，只是将和的位置交国外电子测量技术北大中文核心期刊图结构换，进一步的细化加深特征，反过来用高级阶段的特征对低级阶段的信息恢复和提取进行逐步指导，以选择出更具区分力的特征，同时加速网络的收敛，使网络的学习更具鲁棒性，获取更优的预测结果。实验验证实验数据实验采用无人船拍摄的数据集，是由清华大学与西北工业大学的研究人员联合欧卡智舶公开的第个用于内陆水道中无人船的一组多传感器数据集，其通过自动驾

9、驶船，在内河航道进行手动和自动航行时，在各种现实场景中记录的来自激光雷达、立体相机、等传感器的数据。实验环境实验是在系统环境中运行的，运行框架为，使用加速。服务器处理器为（）（），显卡为，编程环境是。实验细节和参数在实验过程中，本文采用张河道图像作为训练集，张带有相应标签的河道图像作为测试集，并根据网络模型的要求将所有图像都重置为的图像。）实验中对数据集进行个的训练，此时损失函数已经完全收敛，到达了稳定状态。）使用优化器和常用的二元交叉熵损失函数。）采用的学习率。）由于环境的限制只能设置为，这会导致训练过程中损失函数的收敛震荡较大，精度也有所下降，所以

10、训练时并不在每个后都进行梯度更新，而采取每个进行一次梯度更新，从某种意义上相当于将设为了，大大减小了收敛过程中的损失的震荡。实验结果及其分析讨论评价指标本文采用较为主流的评价指标类别像素精确度和平均交并比等进行评估，这些方法都是在混淆矩阵的基础上进行计算的。混淆矩阵就是对每个像素可能出现的分类结果进行一个统计，可用模型预测正确河道所占的像素个数、模型预测错误背景占的像素个数、模型预测错误河道所占的像素个数和模型预测正确背景所占的像素个数进行表示，如表所示，各项指标的计算公式如下。类别平均像素精确度为：（）平均交并比为：（）频权交并比为：（）召回率为：（）为：（）其中，表示包含背

11、景在内的类别数量。表混淆矩阵真实情况预测结果正例反例正例（真正例）（假反例）反例（假正例）（真反例）消融实验本文所提出的改进结构主要由多尺度特征融合模块和带有通道注意力机制的密集残差模块组成，为了证明改进的网络中每一个模块的有效性，在公开的数据集上进行了消融实验，如表所示，依次为、和数据增强的分割性能。）的消融原始图像经过编码部分后得到的图像，实验发现扩充率组合为、时的分割效果比、北大中文核心期刊国外电子测量技术表模型中各模块的性能（）网络结构（）（）（）（）（）（数据增强）好，降低了将河道认作是背景的错误率，表明当扩充率组合为、时获得的感受野能捕捉更多更加详细的语义信息，而当

12、扩充率为、时感受野已经等于或超出图像的大小了，导致网络退化和部分细节信息丢失，使得边界分割模糊不准确。实验结果如表所示，发现加入结构后的网络效果提升得比较明显，在类别平均像素精确度、平均交并比、召回率、频权交并比和上分别提高了、和。表不同扩充率的对比（）网络结构（，）（，）的消融经过实验发现仅在初始的跳接结构中加入通道注意力模块，模型的各项指标有大约的提升，证明通道注意力机制能够突出河道特征，一定程度上减少了背景的影响，而将和一起融入后的虽然分割精确度提升了，但也出现了新的问题，在相似性较大的边界处，背景被误认为河道，虽然突出了语义特征，也错误的突出了部分背景，加重了类

13、间不一致问题，导致该模型的召回率，平均交并比等指标比更低，因此在的跳接连接处加入是无效的。）和的消融为改善中的问题，提出了密集跳接结构，并对其是否加入注意力机制进行了对比，即（）和（）结构，如表所示，可以得到在密集跳接结构中加入通道注意力机制对模型是有效的，和表结果对比，在在的基础上在跳接结构融入模块，模型召回率、平均交并比等指标都得到了提高，通过低级特征对高级特征提取的指导，获得了更详细的语义信息和边界信息。表是否加入的对比（）网络结构（）（）的消融由表可以看出，在解码层每个后连接密集块结构后，模型的分割性又得到了进一步提升，并且损失函

14、数的收敛也有了明显的加快，如图所示。融合了和模块后的网络，总类别平均像素精确度、平均交并比、召回率、频权交并比和相比于网络分别提高了、和，证明了和的有效性。）数据增强在网络的改进中，网络层数加深了，而数据量又比较有限，因此，为了提高网络模型的泛化能力和鲁棒性，并防止网络发生过拟合，本文进行了数据增强以增加训练的数据量和噪声数据。实验中发现网络训图和训练时的损失练时对空间位置信息的把握比较困难，在数据集中河道都是位于中下的位置，因此在做数据增强时对其进行水平翻转，让同一场景下的河道拥有不同的位置姿态，让网络学习更多的不变

15、性，以此来减少国外电子测量技术北大中文核心期刊网络对空间位置信息的关注，而更多的关注分类对象的外形和边界，测试结果如图所示，可得加入水平翻转数据后训练出来的结果更贴近标签图，网络学习到更多河道这一类别的特征，抑制了位置等其他信息的干扰，对河道的表达更准确；另外对于数据集中有些图像颜色和亮度差异大的情况，本文对各图像的色度、饱和度、对比度和锐度进行适当的随机调整并将其作为扩充数据，来帮助模型对河道做出更准确的判断，最后得到的数据集由张的图像组成，实验表明数据增强是有效的。图数据增强在不同网络图模型分割效果对比北大中文核心期刊国外电子测量技术观察表可知，在数据增强后每个指标都

16、取得了最优的性能（加粗字体），相比于原始它的类别平均像素精确度、平均交并比、召回率、频权交并比和上分别提高了、和，模型获得了更优的分割性能。为了更加直观的观察分割结果，图所示为、和数据增强在数据集上的预测结果。可以看到数据增强分割的河道与真实标签图的误差最小，分割的整体轮廓更加清晰，河道边界也更加流畅。和其他算法的比较最后，比较了数据增强与目前常用于分割任务的其他先进方法在数据集上的性能。表将改进的网络和、（）在数据集上进行了比较。由表可知，改进后的网络在各项指标上都具有较优的分割性能。网络在编码时索引池化位置，解码时反池化恢复，网络对多尺度特征向量进行池化，都能获得比更准确的目标对象信息，但通过在编码后连接结构，在跳接连接和解码处结合注意力机制和密集连接结构，以及进行适当的数据增强，获得的类别平均像素精确度和平均交并比分别比和提高了、和、，而采用了轻量型网络作为的，在数据集上的效果却不太理想。表在数据集上与其他先进算法的比较（）网络结构数据增强结论本文针对河道图像语义分割任务中多尺度目标分割效果不佳，缺乏上

展开阅读全文

改进的神经网络ADD-Unet用于河道图像的分割_刘丹.pdf