1、Computer Engineering and Applications计算机工程与应用2023,59(7)图像语义分割旨在对每一个像素按照给定标签进行分类,使不同种类的物体在图像上得以区分,能同时完成分割与分类两个任务,是计算机视觉研究的关键技术之一。目前,广泛应用于自动驾驶1、机器人视觉2、智能医疗影像分析3、地理信息分析系统4以及智能服装分类5等领域。RGB-D双模态特征融合语义分割罗盆琳1,2,方艳红1,2,李鑫1,2,李雪1,21.西南科技大学 信息工程学院,四川 绵阳 6210102.西南科技大学 特殊环境机器人技术四川省重点实验室,四川 绵阳 621010摘要:针对复杂室内场景
2、中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v
3、2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。关键词:注意力机制;双模态特征融合;双重注意感知上下文;RGB-D语义分割文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.2111-0518Dual-Modal Feature Fusion Semantic Segmentation of RGB-DLUO Pen
4、lin1,2,FANG Yanhong1,2,LI Xin1,2,LI Xue1,21.School of Information Engineering,Southwest University of Science and Technology,Mianyang,Sichuan 621010,China2.Robot Technology Used for Special Environment Key Laboratory of Sichuan Province,Southwest University of Scienceand Technology,Mianyang,Sichuan
5、621010,ChinaAbstract:The existing RGB image semantic segmentation network for complex indoor scenes is susceptible to factorssuch as color and lighting,while it is also challenging to integrate dual-modal features effectively.Regarding the issueindicated above,this paper proposes an attention mechan
6、ism bimodal fusion network(AMBFNet)that adopts an encoder-decoder structure.In the first phase,building the bimodal fusion network structure(AMBF)is carried out to reasonablyallocate the location and channel information of the features at each stage of the encoding branch.And then,designing theDA-co
7、ntext module is implemented to merge the context information.Finally,the multi-scale feature maps are cross-layerfused through the decoder to reduce the problem of misrecognition between classes and the loss of small-scale targets inthe prediction results.The test results on the two public datasets
8、of SUN RGB-DNYU and Depth v2(NYUDV2)show theconsequence that compared with the more advanced RGB-D semantic segmentation network such as the RedNet,ACNetand ESANet,under the same hardware conditions,the network proposed in this paper has better segmentation perfor-mance.At the same time,the MIoU rea
9、ches 47.9%and 50.0%,respectively.Key words:attention mechanism;dual modal feature fusion;dual attention perception context;RGB-D semantic segmentation基金项目:国家重点实验室开放基金(SKLA20200203)。作者简介:罗盆琳(1997),女,硕士研究生,研究方向为图形图像处理、深度学习;方艳红(1978),通信作者,女,博士,副教授,CCF会员,主要研究方向为智能仪器设备、医学图像处理与模式识别、虚拟现实力触觉渲染,E-mail:;李鑫(19
10、95),男,硕士研究生,CCF学生会员,研究方向为图像处理、深度学习;李雪(1994),女,硕士研究生,CCF学生会员,研究方向为图像处理、深度学习。收稿日期:2021-11-29修回日期:2022-01-20文章编号:1002-8331(2023)07-0222-102222023,59(7)早期的像素级语义分割主要基于传统机器学习的方法。较为著名的有基于图割6的方法、基于条件随机场的算法7-8以及其改进后的马尔科夫条件随机场算法9。然而此类算法只能对输入图像进行二分类的分割,分割精度较低,无论从效果上或是运算速度上均远无法解决端到端的海量数据处理问题。随着深度学习(deeplearning
11、,DL)概论在2006年被Hinton等人10提出,其在语义分割任务上的应用使得场景的分割精度大大提高。2015年,Long等人11提出了全卷积神经网络(FCN),将分类网络 AlexNet12、VGGNet13和 GoogLeNet14应用于完全卷积网络中,并通过微调15将其学习表示转移到分割任务中,使得端到端的分割网络变得流行,被称为基于深度学习语义分割方法的开山之作。语义分割作为密集预测任务,对信息进行多尺度特征提取与融合至关重要。因此,Ronneberger等人16提出了带有跳跃连接的编解码网络 UNet;Chen等人3与 Google团队先后提出了4个经典的DeepLab系列多尺度特
12、征提取编-解码网络,不断增强语义分割能力,在RGB图像分割中取得了良好的效果。然而在复杂室内场景中,由于物体种类多、光线变化大、易遮挡等因素,导致RGB图像语义分割任务存在较严重的边界模糊、类内误识别以及小目标物体丢失等问题。文献17-18等已经证明,在进行语义分割时,深度图像可以为RGB图像提供互补的几何信息,从而改善分割效果。随着深度相机的广泛应用,场景深度信息获取变得较为容易。但由于使用RGB-D进行特征融合时数据类型的不同,容易导致网络模型复杂度过高,因此有关基于RGB-D双模态数据融合的语义分割研究仍然较少。因为深度图像数据的数据特征与 RGB 图像不同,所以要将深度数据融合到 RG
13、B 图像中非常困难。在文献19中,将深度信息通过三维空间与RGB图像结合,通过处理三维数据来实现分割,导致计算复杂度大大增加。之后,文献20-21设计了考虑深度信息的改进卷积,分割速度仍十分缓慢,不适用于实时细分。近年来,注意力机制从自然语言处理领域进入到图像处理领域,使得基于深度学习的图像语义分割方法取得了进一步发展。注意力机制选择出图像中需要重点观察的信息,为其分配更多的资源,使计算机在有限的资源下能更高效准确地处理视觉信息。2018年,Hu等人22提出了SENet,SE(squeeze-and-excitation)注意力模块整个过程分为压缩和激发,首先通过压缩部分得到当前特征图的全局压
14、缩特征量,再通过激发部分获取各通道的权重信息,最后得到更合理的特征预测。但是SENet专注于通道注意力,舍弃了空间注意力,忽略了位置信息。随后,GCNet23、SCNet24等网络加入自注意力机制,相比于SENet,可以取得更好的效果,但却增加了计算量,并降低了分割效率。2021年,Hou等人25设计了用于高效移动网络的坐标注意力(coordinate attention)模块,该模块几乎没有任何计算开销,且在语义分割任务中表现良好。此外,对于复杂室内场景语义分割而言,加深网络层数有助于提高准确率,同时也容易出现网络退化问题,即随着网络加深,准确率却下降。网络退化证明不是所有的网络都能很容易提
15、取深层次的特征。残差网络26在前向网络中加入了一些快捷连接,将原始数据跳过一些层次的操作,直接传入到后层。网络不再直接拟合原始映射,而是拟合残差映射。残差结构允许网络尽可能地提取深度特征,提升网络精度,但是随着层数加深会出现参数量较大的问题。后来,Romera等人27提出了 Non-Bottleneck-1D 架构,将二维滤波转换为一维滤波,用于残差网络中,将原始残差块中的33卷积分解成一维的31和13卷积,假设C是输入特征图个数,F是输出特征图个数,参数量从C33F降为C23F,进而减小了33%的参数量。基于上述,为了提高室内环境的语义分割性能,本文提出一种基于注意力机制的双模态特征融合RG
16、B-D实时语义分割网络AMBFNet,既可以有效地利用跨模态互补的信息来增加分割精度,又能很好地去除冗余信息以提升分割速度。网络主干采用ResNet34轻量残差骨干结构,使得AMBFNet能够快速运行。该网络还采用编解码器架构,根据其结构特点构建了两个模块:AMBF模块和DA-Context模块,使网络达到最佳性能。本文的主要工作有:(1)引入坐标注意力机制25,设计了基于注意力机制的双模态特征融合模块,用于捕捉特征间的语义信息和深度信息。两个编码分支逐层将特征图送入特征融合模块,使用准确的位置信息来编码通道信息和远程依赖关系,互补地应用于输入特征图,更合理地分配通道和位置信息权重,然后将RGB特征与深度特征求和协同优化,最后通过跳跃连接将多尺度的特征信息送入解码器部分,融合低级空间维度信息和高级语义信息,用于提取全局特征。(2)以双注意力机制28为核心,加入上下文模块29,设计了双注意力感知的上下文模块,首先特征图同时经位置注意力和通道注意力模块处理以进一步改进特征表达,然后在局部特征上建模丰富的上下文依赖关系,最后再利用几个分支聚合上下文信息,增强分割性能。(3)根据前两点设计的网