1、第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展0215004-1研究论文多尺度特征对齐聚合的语义分割方法徐兆忠1,彭力1,2*,戴菲菲31江南大学物联网工程学院物联网技术应用教育部工程研究中心,江苏 无锡 214122;2无锡太湖学院江苏省物联网应用技术重点建设实验室,江苏 无锡 214122;3台州市产品质量安全监测研究院,浙江 台州 318000摘要 卷积神经网络在对图像进行语义分割时,高层特征经过降采样和 padding操作和低层特征之间容易产生错位。为了解决高低层特征之间的错位问题,更好地聚合多尺度特征信息,提出了一种带有多尺度特征对齐聚合(MFAA)模块的语义分割
2、方法。MFAA 模块采用一种可学习插值策略来学习像素的变换偏移,可以有效缓解不同尺度特征聚合的特征不对齐问题,同时模块内的注意力机制提高了解码器恢复重要细节特征的能力。该方法利用高层特征的语义信息和低层特征的空间信息,通过多个 MFAA 模块将高低层特征对齐之后聚合到一起,从而实现图像更加精细的语义分割效果。将所提网络结构在语义分割数据集 PASCAL VOC 2012上进行了验证,使用 ResNet-50作为骨干网络时在验证集上的平均交并比值达到了 78.4%。实验结果表明,该方法与几种主流分割方法相比在评价指标方面存在优越性,可以有效提高图像分割的效果。关键词 机器视觉;图像语义分割;特征
3、对齐;多尺度特征;注意力机制中图分类号 TP391.4 文献标志码 A DOI:10.3788/LOP212814Semantic Segmentation Method Based on Multiscale Feature Alignment and AggregationXu Zhaozhong1,Peng Li1,2*,Dai Feifei31Engineering Research Center of Internet of Things Technology Applications,School of IoT Engineering,Jiangnan University,Wux
4、i 214122,Jiangsu,China;2Jiangsu Province Internet of Things Application Technology Key Construction Laboratory,Wuxi Taihu College,Wuxi 214122,Jiangsu,China;3Taizhou Product Quality and Safety Monitoring Institute,Taizhou 318000,Zhejiang,ChinaAbstract During semantic segmentation of images,a convolut
5、ional neural network easily misplaces the high-level features with low-level features after down-sampling and padding operations.To solve the mismatch problem between high-and low-level features and better aggregate the multiscale feature information,this paper proposes a semantic segmentation metho
6、d with a multiscale feature alignment aggregation(MFAA)module.The MFAA module adopts a learnable interpolation strategy to learn pixel transform migration,thereby alleviating the feature-misalignment problem of feature aggregation at different scales.The module includes an attention mechanism that i
7、mproves the decoders ability to recover the important details.Using multiple MFAA modules,the semantic information of high-level features,and the spatial information of low-level features,this method aligns and aggregates the high-and low-level features to refine the semantic segmentation effect.The
8、 proposed network structure was validated on PASCAL VOC 2012.Using a ResNet-50 backbone network,the mean intersection-over-union reached 78.4%on the validation set.Experimentally,the proposed method achieved better evaluation indices than several mainstream segmentation methods and effectively impro
9、ved the image segmentation effect.Key words machine vision;image semantic segmentation;feature alignment;multiscale feature;attention mechanism收稿日期:2021-10-26;修回日期:2021-11-15;录用日期:2021-11-29;网络首发日期:2021-12-10基金项目:国家自然科学基金(61873112)、国家重点研发计划(2018YFD0400902)通信作者:*0215004-2研究论文第 60 卷 第 2 期/2023 年 1 月/激
10、光与光电子学进展1引言作为计算机视觉的基础任务之一,图像语义分割是目前计算机视觉的热点研究方向1。语义分割是一个像素级的分类任务,可以对图像中每一个像素点按设定的语义标签进行分类2。图像语义分割有许多应用场景:在医疗图像3领域,通过语义分割可以精准找出医疗图像中的肿瘤等病变部位,减少医生的负担;在自动驾驶4领域,可以帮助掌握驾驶时汽车周围的环境信息,识别道路与障碍物;在地理信息系统中,可以识别出卫星遥感影像中的道路、建筑、河流等信息,并对其分别标注。在深度学习尚未应用到计算机视觉领域时,对图像的分割主要分为基于阈值、边缘和区域的方法。随着计算机性能的提高及 GPU 加速技术的出现,以卷积神经网
11、络(CNN)为代表的深度学习方法取得了较大的进展。Long 等5在 2015 年提出了一种将全卷积神经网络(FCN)用于图像语义分割的方法,该方法被认为是卷积神经网络用于语义分割的基石之作。FCN 将 VGG166中的全连接层换成了卷积层,通过上采样得到高分辨率的深层特征后与浅层特征直接相加得到密集的预测结果,实现了端到端的图像分割。随后出现了一大批以 FCN 为基础架构的图像语义分割方法。特征融合是语义分割最近研究进展主要遵循的策略之一,然而特征融合的方法融合了不同尺度卷积块的特征,这可能引起特征错位的问题。为了解决这个问题,Lu 等7提出 IndexNet来学习池化和上采样操作的索引。Ja
12、derberg等8提出了一个新的可学习模块来提高卷积神经网络的空间不变性。Mazzini 等9提出了一个可以被引导的上采样模块来学习每个像素位置的二维变换偏移量。SFNet10和 AlignSeg11用光流的方式进行配准,来计算每个像素的运动偏移并进行校正。受以上方法的启发,本文提出了一种多尺度特征对齐聚合的语义分割方法,旨在更好地利用各层级特征信息对齐和融合多尺度特征,从而实现更精细的分割效果。利用骨干网络不同层级的特征有助于恢复图像边缘信息和纹理信息,提高网络的细节表征能力。通过多个特征对齐聚合模块逐步将低分辨率的深层特征与高分辨的浅层特征相融合,逐步挖掘不同分辨率的特征信息。在高级特征对
13、齐融合前加入空间注意力模块,增大重要的空间细节的权重,减少噪声干扰的同时强化网络的学习能力。使用空洞空间金字塔池化(ASPP)模块捕获上下文信息,在不降低特征分辨率的情况下扩大感受野。此外,在解码器中使用了一种平滑的激活函数 Mish12。Mish 具有平滑、非单调、无上界、有下界等特点,在深度神经网络中表现出了比ReLU 更好的效果。2相关工作图像语义分割常用编码器-解码器13结构预测端到端的像素级分类任务。编码器用于提取图像的高级语义特征,解码器则通过反卷积、插值等方式恢复原图尺寸,最终获得图像分割结果。目前分割较好的网络结构往往在解码阶段采用融合高分辨的低层特征来获得图像的空间信息,实现
14、更精细的分割效果。所提方法同样基于编解码结构,提出了多尺度特征对齐聚合(MFAA)模块。所提模型结构如图 1 所图 1所提模型结构图Fig.1Structure diagram of proposed model0215004-3研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展示,编码器使用 ResNet-50作为骨干网络来提取特征,下采样步幅为 16,输入图像经过 ResNet-50 提取特征后得到尺寸为输入图像尺寸 1/16的高级语义特征,然后经过上下文模块 ASPP 获得多种尺度的上下文特征。解码器中使用两个 MFAA 模块对骨干网络中不同分辨率的特征图进行对齐
15、聚合,得到的输出特征与ASPP 输出的高级特征进行级联,最后通过上采样获得密集的图像分割结果。2.1MFAAMFAA 由特征对齐模块(FAM)和空间注意力(SA)模块组成,是整个网络解码器的重要组成部分。MFAA 通过 SA 模块突出高层输入的重要空间细节,使高层特征在保留语义信息的情况下尽可能激活更多的空间信息。FAM 有两个输入,用于高层特征与低层特征之间的对齐与融合。高层特征首先进行二倍上采样,之后经过 SA 模块后与低层特征通过 FAM 模块对齐再进行相加融合。输入图像经过骨干网络后有不同分辨率的特征输出,为了获得更好的融合效果,可以使用多个 MFAA 模块串联进行多尺度的特征融合。所
16、提方法使用两个 MFAA 模块串联实现不同层的特征融合。2.1.1FAMFAM 采用一种可学习插值策略来学习像素的变换偏移,用于精确对齐高分辨和低分辨率的特征图,之后聚合高级特征和低级特征。特征融合的错位来自两个输入特征之间的偏移,特征经过 FAM 学习到高级特征与低级特征的偏移量,之后与各自的输入特征经过 对 齐 函 数 获 得 矫 正 后 的 特 征 信 息 再 进 行 融 合。FAM 模块如图 2所示,高级特征上采样后经过空间注意力模块得到Fh,Fh与低级特征Fl通过级联(Concat)来建立两个特征之间的相关性,之后经过 11卷积与批量归一化层后分成两个支路,每个支路使用 11卷积将通道维度降为 2,用来预测该支路特征的二维偏移 R2 H W,的两维分别代表了特征的横向偏移与纵向偏移。两条支路输出的二维偏移h和l分别用于对齐高级特征和低级特征,通过函数U获得对齐之后的特征信息:Aout=U(Fh,h)+U(Fl,l),(1)式中:Aout是对齐之后的输出特征;Fh和Fl是需要对齐的两个输入特征;U是对齐函数。假设要对齐的特征图 F 的 大 小 为 HW,F 上 像 素 点Fhw