1、2023年8期创新前沿科技创新与应用Technology Innovation and Application基于注意力机制改进深度神经网络的遮挡目标检测晏超(南京邮电大学通达学院,江苏 扬州 225127)在实际生活中,目标往往不是完整展示在视觉范围当中,感兴趣目标可能和同类目标发生重叠,也可能会受到不同类目标的遮挡干扰1。感兴趣目标的缺失展示给机器完成高准确度目标检测的任务带来很大难度,为了实现复杂环境中被遮挡目标和其他目标的区分,对模型提取特征方面的要求会更高。人类的视觉在观察目标时通常会着重关注目标区域的信息,并且减小关注甚至忽视剩余的信息。在视觉的有限关注力下,关注图像中偏重点的部分
2、,将更多的精力投入到这个部分发掘更多与目标关联紧密且有用的特征信息,抑制无价值的信息,这就是注意力机制。在面向被遮挡目标的检测中引入注意力机制,进一步提升模型提取关键特征信息的性能,以此更加准确地预测被遮挡目标的真实位置。1改进生成特征图的方式1.1SSD目标检测算法SSD(Single shot MultiBox Detector)的网络纵深结构主要由主干前置网络 VGG16 和后续的多个辅助卷积特征层(conv)组成2,如图 1 所示。基于多尺度特征图检测的思路,向网络输入 300300 尺寸的图片,VGG16 网络作为 SSD 网络的基础网络输出 1 张特征图,后续的卷积层再输出 5 张
3、特征图。越往后的卷积层作者简介:晏超(1994-),男,硕士,助教。研究方向为机器视觉。摘要:目标检测是机器视觉领域一个重要的基础性方向,是以标示出图像中感兴趣目标的真实位置为目的的工作,而图像中的部分目标往往处于被遮挡的状态。由于实际环境中目标被遮挡程度和遮挡目标物体性质不同等因素的影响,提高检测被遮挡目标的准确性是一个难点。该文以一步检测法 SSD 目标检测算法为基础,在部分卷积层结构中添加注意力机制模块 CBAM,有目的地关注特征图中的重要信息以较好地检测被遮挡的小目标。还引入 Inception-ResNet-v2 网络结构改变 SSD 算法中特征图的生成方式,并嵌入 CBAM 改进
4、Inception-ResNet-v2 的部分结构,更好地提取关键信息以区分被遮挡目标和干扰项。分别从行人和车辆 2 个不同目标出发,混合开源数据集和自建数据集进行训练,测试结果表明改进后的模型检测被遮挡目标的效果有所提升。关键词:遮挡目标检测;注意力机制;CBAM;Inception-ResNet-v2;SSD中图分类号:TP391.4文献标志码:A文章编号:2095-2945(2023)08-0010-05Abstract:Object detection is an important basic direction in the field of machine vision,whic
5、h aims to indicate the real lo-cation of the objects of interest in the image,and some of the targets in the image are often occluded.Due to the influence offactors such as the degree of occlusion and the nature of occluded objects in the actual environment,it is difficult to improve theaccuracy of
6、detecting occluded targets.Based on the one-step detection SSD object detection algorithm,this paper adds the atten-tion mechanism module CBAM to the partial convolution layer structure to pay attention to the important information in the featuregraph in order to better detect the occluded small tar
7、gets.In addition,the Inception-ResNet-v2 network structure is introduced tochange the generation mode of the feature graph in the SSD algorithm,and CBAM is embedded to improve part of the structureof Inception-ResNet-v2 to better extract key information to distinguish between occluded objects and in
8、terference items.Startingwith two different targets of pedestrians and vehicles,mixed open source data sets and self-built data sets are trained,and thetest results show that the effect of the improved model in detecting occluded objects is improved.Keywords:occlusion object detection;attention mech
9、anism;CBAM;Inception-ResNet-v2;SSDDOI:10.19981/j.CN23-1581/G3.2023.08.00310-创新前沿科技创新与应用Technology Innovation and Application2023年8期输出特征图尺寸越小(从 3838 降到 11),将总共 6 张特征图全部用于检测层步骤中,完成先验框的生成、输出置信度得分及获取边界框坐标位置信息的工作。最后,通过非极大抑制算法排除繁杂重叠的冗余框,留下最能表征目标的检测框,得到最终的检测结果。SSD 算法兼顾了两步检测法和一步检测法的优势,既保证了检测精度,又保证了检测速度。图1SS
10、D的网络结构1.2引入注意力机制CBAM模块CBAM(Convolution Block Attention Module,卷积块注意力模块)是基于注意力机制的,同时关注空间和通道 2 方面重要性的轻量级模块3。如图 2 所示,CBAM 模块将特征图作为输入对象,进入通道注意力模块完成第一步,突出特征图中有意义的信息。特征图 F 经过并行的最大池化层和平均池化层的作用,特征图 abc 的尺度会转化为a11 大小,然后通过中间模块 Shared MLP 的作用,先压缩通道数再扩张回原数量级,接着将通过 ReLU 激活函数的作用生成的 2 个结果进行逐元素相加,最后通过 sigmoid 函数输出通
11、道注意力的结果 Mc(F),该输出结果和输入的特征图 F 逐元素相乘得到结果 F,尺度重新转化为 abc,第一步过程如公式(1)(2)所示。由第一步过程可得,整个通道注意力模块的作用就是维持通道方面维度不变的同时,压缩空间方面的维度。第二步是进入空间注意力模块,突出目标的位置信息4。将第一步的结果 F直接作为第二步的输入,经过非并行的最大池化层和平均池化层的作用得到 2 张 1bc 的特征图,经过 Concat 操作将 2 张特征图拼接起来,然后通过 77 卷积作用转化为通道数为 1 的特征图,最后通过 sigmoid 函数得到空间注意力的结果 Ms(F),该输出结果和输入的特征图F逐元素相乘
12、得到结果 F,同样尺度重新转化为 abc,第二步过程如公式(3)(4)所示。由第二步过程可得,整个空间注意力模块的作用就是维持空间方面的维度不变,压缩通道方面的维度。图2CBAM结构图F MC(F)F,(1)MC(F)=(MLP(AvgPool(F)+MLP(MaxPool(F),(2)F MS(F )F ,(3)MS(F)=f77AvgPool(F);MaxPool(F)()()。(4)由于 SSD 网络的低层和中层网络生成的特征图分辨率较高,但是包含的语义信息较少,会导致检测小目标效果不佳。而被遮挡目标经常是以小目标的尺度出现,比如根据视觉近大远小的特性,处于图像中远处的目标被近处的目标遮
13、挡,直接导致被遮挡目标的召回率严重不足。引入 CBAM 模块分别置于 SSD 低层的conv4_3 生成特征图输出给检测层的过程中,以及中层的 conv8_2 后方,如图 3 所示。通过加强通道和空间的特征表达的方式,弥补低层表达能力的不足。各个权重与特征图的相乘运算将侧重信息表达了出来,提升网络提取重要特征的能力,这些重要特征往往是被遮挡目标在图像中单一显示出来的,与其能否被检出很有关联。1.3引入改进的Inception-ResNet-v2网络结构为了能够更加高效地提取目标的特征,引入Inception-ResNet-v2 结构5-6改变 SSD 网络生成 6 张多尺度特征图的方式。分别通
14、过 mix_3a,mix_4b,mix_5a,3003003383851219191 024 19191 024 1010512 55256 33256 11256 检测层NMSSSDVGG16conv4_3conv6conv7conv8_2conv9_2conv10_2conv11_2输入特征图输出特征图通道注意力模块空间注意力模块11-2023年8期创新前沿科技创新与应用Technology Innovation and Application图3在SSD中引入CBAMInception-ResNet-A,Inception-ResNet-B 和 Inception-ResNet-C 6
15、个不同层级的结构得到不同尺度的特征图,全部用于检测步骤进行预测。越是经过深度神经网络(DNN)高层的卷积作用,特征图映射到原图中的感受野就越大,会直接导致局部位置信息的感受越来越差,相对位置信息越发不明显。运用空间注意力模块关注目标位置信息的特点,引入多个 CBAM 模块置于Inception-ResNet-X 结构中含有卷积层多分支路径最后合并输出的路径上,X 代表 A、B 和 C,如图 4图 6所示。以 Inception-ResNet-A 为例,如图 4 所示,输入和输出之间包含 4 条分支路径。其中在 3 条带卷积层的并行路径中,第一条路径只需要进行 11 卷积核的作用,第二条路径需要
16、经过 11 和 33 卷积核的作用,第三条路径需要经过 11 和 2 个 33 卷积核的作用,堆叠 3 条路径作用的结果再经过 11 卷积核的作用来到合并路径,最后通过 CBAM 的作用强化特征位置信息的表征,输出的结果再和不带卷积层直接输出的结果相加。同理,如图 5 和 6 所示,各个包含不同程度信息的特征图在进行相加前,都要经过 CBAM 的作用,再输出到结构下层或检测层中,如图 7 所示。图6引入CBAM模块的Inception-ResNet-C结构图4引入CBAM模块的Inception-ResNet-A结构图5引入CBAM模块的Inception-ResNet-B结构输入输入检测层输出输出输出11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积11 卷积13 卷积11 卷积33 卷积11 卷积33 卷积33 卷积31 卷积71 卷积17 卷积17 卷积CBAMCBAMCBAM输入CBAMCBAMconv4_3conv6conv7conv8_2conv9_2conv10_2conv11_2检测层12-创新前沿科技创新与应用Technology Inn