基于改进YOLOv5的SAR图像飞机目标检测

资源描述

1、引用格式：李佳芯，朱卫纲，杨莹，等基于改进的图像飞机目标检测电光与控制，（）：，（）：基于改进的图像飞机目标检测李佳芯，朱卫纲，杨莹，邱琳琳，朱霸坤（航天工程大学，研究生院；电子与光学工程系，北京）摘要：针对当前图像中飞机检测尺寸较小导致小目标检测率低、虚警率高的问题，提出一种基于的改进方法。先采用聚类算法针对飞机小目标尺寸优化锚框，在主干网络融合模块，同时引入自适应学习权重的多尺度特征融合机制和全局注意力机制（），使网络跨越空间通道维度放大全局维度交互，提高模型捕获不同维度信息的能力；并且增加一个小目标检测层，提高网络对图像飞机小目标检测能力。实验结果表明，相较于原

2、方法，改进方法在图像尺寸较小飞机目标的检测上具有更强的特征提取能力和更高的检测精度。关键词：图像；小目标检测；中图分类号：文献标志码：，（，；，）：，（），：；引言合成孔径雷达（，）是一种高分辨率远程成像传感器。对高分辨率图像进行快速、准确的处理与解译，提取出原始图像中有价值的目标信息，是高分辨率图像能否获得高效利用的关键。图像目标检测识别技术在军事方面应用于军事目标搜索与标定、导弹武器定标远程打击、战场环境监测、特定目标跟踪侦察等领域。在民用收稿日期：修回日期：作者简介：李佳芯（），女，吉林吉林人，硕士生。方面主要用于地形测绘及制图、水上目标检测及灾害风险监测等。其中，图像飞机目标作

3、为军用和民用的重要设施，针对该目标的检测在军事侦察、精确打击方面具有重要价值。优化星载图像飞机目标检测能力，可提升图像飞机目标情报信息的准确性和精确制导武器打击的准确性。目前，对图像中的小目标未有标准定义，相关研究中判定小目标有两种情况：一种情况是目标所占的像素点数与原图总像素点数的比例小于；另一种是根据数据集情况自身定义，如数据集中定义小于像素像素的目标为小目标。高分辨率图像中飞机目标尺寸较第卷第期年月电光与控制小，例如数据集中的图像切片中飞机目标的尺寸约为，小于原图的，可认定为小目标。传统目标检测主要分为特征提取与特征分类两个阶段，其中，特征提取是

4、依据物理特性等传统算法提取特征信息，受图像噪声的干扰较大，特征鲁棒性较差且耗时长，而深度学习算法在图像处理领域具有自适应学习能力和深度特征提取能力。当前基于卷积神经网络目标检测算法可以简单分为两类：一类是基于候选区域的两阶段检测算法，其中包括候选区域提取和基于候选区域进行分类预测两个阶段，例如，；另一类则是以（），（）为代表的一阶段检测算法，是将目标检测转化为回归问题，预测回归及分类概率进行位置和类别的判别，较好地提升了检测速率，同时兼顾较好的准确性。系列系列算法作为典型单阶段检测算法，以端到端方式对目标的坐标和类别进行回归，后续基于改进的，在检测速度和精度上都更加优化。文献基于算法

5、先针对小目标聚类优化锚框，并在浅层网络增加一个输出端，使其保留更多小目标信息和边缘信息。文献采用模块替换结构，再引入通道注意力模块，使网络更加关注小目标信息特征。文献针对小目标特征提取能力不足问题，采用方法进行数据增强并增加浅层特征图，再调整损失函数增强网络对小目标的感知能力，提升了网络的检测性能。考虑到图像主要来自遥感数据，目标在图像中的像素占比大部分较小，因此，本文在处理图像目标检测问题时，需要着重考虑检测器对小目标的检测能力。综合经典方法在检测精度和检测速度上的性能表现，选择作为本文图像目标检测任务的基础网络模型，基于进行模型优化，提升图像中飞机目标的检测能力。算法

6、改进首先，根据数据集中飞机目标尺寸，采用聚类算法优化锚框，通过聚类分析提升先验框和目标框的匹配度；其次，在主干网络融合模块，同时引入自适应权重的双向特征融合网络，根据训练对象自适应调整特征权重，使网络更好地获取上下文信息以及全局信息，提高模型捕获不同维度信息的能力；在主干网络末端集成全局注意力机制，跨越空间、通道维度放大全局交互；最后，在网络预测端增加小目标检测层，提高网络对飞机目标的检测能力。整体网络框架如图所示，有效提升了图像飞机小目标的特征提取与检测能力。图改进后的小目标检测网络框架模块对于数据集中飞机目标尺寸相对较小的情况，原网络下采样的目标检测层对小目标位置信息的检测能

7、力是有限的。本文将模块集成到改进网络的主干层末端和特征融合层末端。由于网络末端的特征图尺度小，改进模块对网络运算量影响相对少，既可以相对降低计算和存储成本，又能充分利用特征的高分辨率空间信息和编码的全局语义信息，提高机场中飞机目标检测的定位能力。第卷电光与控制李佳芯等：基于改进的图像飞机目标检测是微软公司基于架构改进的模块，改进了窗口注意力机制，相较于卷积神经网络，可以提高网络对全局信息的关注度。采用了移动窗口的方法提高窗口间的信息交互，使感受野增大，实现不同窗口之间特征信息的关联。模块结构如图所示，模块包含两个子模块，分别采用窗口注意力机制（，）模块和滑动窗口自注

8、意力机制（，）模块。每个子模块包含一个归一化层、一个注意力模块、一个规范化层和一个层，子层之间使用残差连接。图模块结构窗口注意力机制（）原机制是指在特征图内每个像素需要与所有像素进行关联计算，所有像素都需要通过变换矩阵，生成对应的，向量，将和所有进行相关性计算，然后通过归一化处理将权重系数和进行加权求和，得到最终的数值为（，）（）其中，假设，的向量长度与特征图的通道数保持一致，那么对应所有像素生成的过程如下（）式中：为将所有像素拼接矩阵，为特征图高度，为特征图宽度，为通道数；为生成的变换矩阵；为所有像素通过得到拼接后的矩阵。根据矩阵运算的计算量公式可以得到生成的计

9、算量为，同理生成和的计算量都是，三者计算量总计是，和相乘的计算量为（），再与相乘的计算量为（），最终通过融合矩阵产生的计算量为，所以可得到机制计算总量为总（）。（）然而，机制是将特征图按尺寸的窗口（本网络窗口尺寸为个像素）进行划分，然后在每个窗口内进行模块操作，计算量为窗（）在小窗口之内计算自注意力，只要窗口大小固定，自注意力的计算复杂度也是固定的，那么总的计算复杂度与图像尺寸呈线性关系，相较于标准的二次复杂度减少了很大的计算量，但同时基于窗口的自注意力模块缺乏跨窗口连接，这限制了其建模能力，所以引入了下文的滑动窗口自注意力机制。滑动窗口自注意力机制（）由机制可知，不同窗

10、口间相互不关联，无法进行信息传递。而关键设计就是进行偏移的机制，在连续的自注意力层之间切换窗口分区，如图所示，偏移量是个像素。循环移位的窗口分区可以提供原有窗口和其相邻窗口之间的连接，提升感受野的作用，显著增强了建模能力。图滑动窗口自注意力机制但如图所示，发现偏移后的窗口数量增加，为解决这一问题，需将尺寸不足的窗口进行移位处理。如图所示，左侧图为窗口移位后的状态。第一步将，窗口向下平移，得到中间状态图；第二步将，窗口向右平移，最终合并成新的完整尺寸窗口如右侧图。其中，是一个单独的窗口；将和合并成一个窗口；和合并成一个窗口；，和合并成一个窗口。在同一窗口内不关联的模块使用

11、即带蒙板的，这样就能够通过设置蒙板来隔绝不同区域的信息了。该操作既保证窗口数量不增加，又实现了原窗口之间的信息交互。图滑动窗口过程自适应多尺度特征融合为提升高分辨率图像中的飞机目标检测能力，采用简单而高效的自适应双向特征金字塔网络（，）结第期构，如图所示，其中代表不同层级特征图。该结构相较于（）结构的改进有：）删除只有一个输入的节点，该类节点没有进行多个输入特征融合，对特征网络作用较小，从而实现对双向网络的简化；）在同一级别的原始输入与输出节点之间添加一条额外的连接通路，跳跃连接输入和输出节点融合了多个特征；）重复多次采用双向（自上而下和自下而上）特征网络层达到高级融合的目的

12、；）引入可学习的权值自适应调整不同输入特征。加强应用自顶向下和自下而上的多尺度特征融合，保留了更多小目标的特征信息，具有更好的准确性和效率权衡。图双向特征金字塔网络结构当进行不同分辨率特征图的融合时，常见的方法是先将它们的大小调整为相同的分辨率，然后再对其求和。然而，实际中不同分辨率的输入特征对输出端的作用也是不相等的，需要针对不同输入特征设置可调节的权重系数。结构根据每个输入特征的作用大小设置不同的权重，并让网络学习自适应调整权重。基于此思想，以下给出两种加权融合方法。）基于的融合特征方法。称为归一化指数函数，目的是将多分类的结果以概率的形式展现出来。例如存在一个数组，表示中的第个

13、元素，则元素的值为。（）为了确保训练的稳定性，可以将权重值归一化后以概率的形式展现出来，达到限制权重范围的目的。归一化后的权重值映射区间为（，），代表每个输入的重要性，即（）式中，是可学习的权重。但是函数归一化权重会导致训练速度大幅度减慢。）快速归一化融合特征。为了降低运算成本，本文采用快速归一化融合方法，即（）设置是为了保证分母大于，避免数值的不稳定性。归一化后的权重值映射区间仍为（，），并采用激活函数，运算速度有进一步提升。以图第层节点为例，快速归一化融合的特征关系如下（）（）（）（）式中：是第层节点的中间特征；是第层特征输入；是第层特征输入；是第层的特征输出。由

14、于每层的特征矩阵尺度是不一样的，所以需要进行下采样处理。全局注意力机制（）注意力机制的合理优化，会提高图像飞机目标检测任务的性能，让网络有效关注到图像中的关键特征点。由于图像飞机目标的散射点结构离散，且周围地物散射性强，本文考虑集成一种“全局”注意力机制，帮助网络更好地关注到感兴趣区域。在检测网络中跨越通道和空间维度，研究注意力权重，捕捉多个维度上的重要特征，增强全局交互的能力。在飞机目标检测网络中跨越通道、空间宽度和空间高度研究注意力权重，保留信息以放大“全局”跨维度交互的能力，能够捕捉到个维度上的重要特征。全局注意力机制（，）可以起到减少网络信息缩减并放大全局维度交互特征的作用。该机

15、制是在中的顺序通道空间注意机制的基础上，对其子模块进行了优化设计，整体模块如图所示。图模块其中输入特征、中间状态和输出特征之间的关系为（）（）（）式中：为通道注意力模块；为空间注意力模块。）通道注意力子模块。如图所示，维度为的输入特征先第卷电光与控制李佳芯等：基于改进的图像飞机目标检测采用三维通道置换的方式保存信息为。然后通过一个两层（多层感知器），第层编码将通道数缩减为，再通过第层解码获得与输入特征具有相同通道数。最后经过激活函数得到权重系数，经通道模块的注意力机制可以放大跨通道的交互。图通道注意力子模块）空间注意力子模块。如图所示，中间特

16、征使用了两个的卷积层，达到空间信息融合作用。同时采用通道注意力子模块相同的缩减比，得到缩放后的新特征，最后经过激活函数得到权重系数。图空间注意力子模块小目标检测层原网络使用种不同尺寸的特征图来检测不同大小的目标，经倍、倍、倍下采样获得种不同尺度特征图，尺度分别为，。可知在特征提取金字塔网络中，下采样倍的相对感受野最大，映射原尺寸图像的面积更大，更适用于预测尺寸较大目标，同理，下采样倍和下采样倍更适用于中等目标和小型目标。但在特征提取与融合阶段的多次卷积处理，会致使深层网络易丢掉目标的部分位置信息，而浅层网络目标的位置信息却比较精确。考虑图像中飞机目标所占比例较小，在改进网络中设计增加针对小目标的检测层，如图所示。图增加检测层的模型结构将输入图像经下采样倍处理，后送入自适应权重的特征融合网络中，该尺寸的特征图感受野较小，目标位置信息丰富，经过多尺度特征融合有利于模型更好地学习目标特征，增强网络对尺寸较小目标的捕捉能力，提升小目标的检测效果。实验结果测试环境本实验训练环境为操作系统，图像处理器（）是，编程语言为，使用开发框架为，。采用数据集为高分三

展开阅读全文

基于改进YOLOv5的SAR图像飞机目标检测_李佳芯.pdf