1、第 37 卷第 2 期2023 年 6 月西昌学院学报(自然科学版)Journal of Xichang University(Natural Science Edition)Vol.37,No.2Jun.,2023基于改进YOLOv5的遥感图像飞机目标检测孙廨尧1,2,侯秀丽1,罗青青1(1.安徽商贸职业技术学院信智学院,安徽 芜湖 241000;2.芜湖市物联网智慧交通工程技术研究中心,安徽 芜湖 241000)摘 要:针对遥感图像中飞机检测尺寸大小不一、背景复杂导致的难以识别问题,提出一种基于YOLOv5网络模型的改进方法。首先,在YOLOv5网络模型中融入Swin-Transforme
2、r模块,使网络全局建模并使全维度信息交互,以提升网络的特征提取能力;然后,对损失函数进行优化,引入SIOU损失函数以考虑真实框和预测框之间的向量角度问题。对比实验结果表明:改进后的网络模型召回率为91.2%,比改进前提升0.6个百分点;改进后平均检测精度mAP0.5为95.7%,比改进前提升0.2个百分点。改进后的YOLOv5网络模型能在一定程度上提升遥感图像中飞机目标检测性能。关键词:遥感图像;YOLOv5;Swin-Transformer;SIOU中图分类号:TP751 文献标志码:A 文章编号:16731891(2023)02006606Aircraft Target Detection
3、 Based on Improved YOLOv5 for Remote Sensing ImagesSUN Xieyao1,2,HOU Xiuli1,LUO Qingqing1(1.Xinzhi College,Anhui Vocational&Technical College of Business&Trade,Wuhu,Anhui 241000,China;2.Wuhu Internet of Things Smart Transportation Engineering Technology Research Center,Wuhu,Anhui 241000,China)Abstra
4、ct:Aiming at the difficult recognition problem caused by the different sizes of aircraft detection and complex backgrounds in remote sensing images,an improving method based on the YOLOv5 network model is proposed.Firstly,the Swin-Transformer module is incorporated into the YOLOv5 network model to m
5、odel the network globally and make the full-dimensional information interactive to improve the feature extraction capability of the network;then,the loss function is optimized and the SIOU loss function is introduced to consider the vector angle problem between the real frame and the predicted frame
6、.The comparison experiments results show that the recall rate of the improved network model is 91.2%,which is 0.6 percentage points higher than the pre-improvement rate,and the average detection precision mAP0.5 is 95.7%,which is 0.2 percentage points higher than the pre-improvement rate.The improve
7、d YOLOv5 network model can improve the performance of aircraft target detection in remote sensing images to a certain extent.Keywords:remote sensing images;YOLOv5;Swin-Transformer;SIOU0 引言随着人工智能技术的快速发展,目标检测技术在各领域中有着广泛的应用。由于遥感图像中蕴含的信息丰富且复杂,遥感图像目标检测可以广泛应用在国防军事、地质灾害、海洋监测以及智慧城市中。通过提取图像中的信息达到某种应用效果。近年来,很
8、多研究者提出了多种遥感目标检测方法。李惠惠等1提出了一种改进型的YOLOv5网络模型检测算法,算法先对锚框进行了优化,其次增加了卷积注意力机制以提升特征提取的能力,最后通过增加浅层特征图来提高小目标的识别精度;曾伦杰等2提出了一种二阶段锚框和类均衡损失的遥感图像目标检测算法,通过k均值聚类(k-means)doi:10.16104/j.issn.16731891.2023.02.011收稿日期:2023-02-06基金项目:安徽省高校自然科学研究重点项目(2022AH052740);安徽省职成教2022教育科研规划课题(Azcj2022128);安徽商贸职业技术学院自然科学重点项目(2022K
9、ZZ05)。作者简介:孙廨尧(1993),男,河南鹤壁人,讲师,硕士,主要研究方向:计算机技术。第 2 期孙廨尧,侯秀丽,罗青青:基于改进YOLOv5的遥感图像飞机目标检测和k-means生成的标签作为第2阶段的中心,生成预设锚框,以提升检测精度,并构建类别平衡损失(class equalization loss,CEQL)提高对少数类别标签的关注程度;张云佐等3提出的多尺度融合与注意力机制的遥感图像目标检测,改进了金字塔池化模块以提高不同图像的感受野,通过注意力模块来学习特征、提升算法特征提取能力,并引入加权双向特征金字塔网络与主干网络结合来促进特征融合;Kala等4提出了一种用FastCN
10、N-NB进行遥感图像提取的物体检测新框架;Hou等5提出了一种用于在高分辨率遥感图像中进行任意导向的目标检测R-YOLO。但是以上方式有的在检测精度或检测速度上还有所缺陷。本文将在YOLOv5算法基础上进行优化改进,在自构建的含有飞机目标的遥感图像数据集中进行训练,通过添加 Swin-Transformer(shifted windows transformer)结构提升特征提取能力,通过对原始模型损失函数改进以提升遥感图像目标检测的精度。1 YOLOv5概述YOLO经历了多种版本的迭代,作为单阶段算法,相比较其他算法具有检测速度快、可以直接完成目标定位的特点。YOLOv5针对不同大小的网络出
11、了不同的版本,分为 YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,区别在于采用的深度与宽度不同。YOLOv5 网络中模型包含了 Input、Backbone和Neck等3个部分6。YOLOv5网络模型结构如图1所示。上述包含卷积层 Conv、拼接层 Concat、上采样层Upsample、跨阶段局部网络SPPF、CBS(由Conv层+Bn层+激活函数三者组成)、模块C3层和探测模块detect。2 YOLOv5算法改进2.1 引入Swin-Transformer结构由于YOLOv5主干特征提取网络为CNN,并且CNN网络具有平移不变性和局部性等问题,缺乏全局建
12、模的能力。2021年Liu等7提出了一种在计算机视觉领域通用的骨干网络Swin-Transformer,由于数据集中飞机属于小目标,YOLOv5原始网络对小目标检测能力有限,本文引入 Swin-Transformer 结构,将 Swin-Transformer 融合到 YOLOv5 网络结构中,改进Backbone中的C3模块,以此来提高全局检测能力,提高目标检测效果。Swin-Transformer结构采用移位窗口的方式,通过将自注意力的计算限制在不重叠的局部窗口中,同时也允许跨窗口连接,这样不仅有了更高的效率,同时通过移动操作,能够让相邻的2个窗口之间有了交互,上下层窗口也有了交叉连接,从
13、而达到一种全局建模的能力。Swin-Transformer 包含了 2个模块,一个是 W-MSA(Window-Multi Self Attention)窗口注意力机制模块,另一个是 SW-MSA(Shifted Window-Multi Self Attention)移位窗口自注意力机制模块,如图2所示。其中,MLP为人工神经图1YOLOv5网络结构图67西昌学院学报(自然科学版)第 37 卷网络,LN为LayerNorm,W-MSA为窗口注意力机制模块,SW-MSA为移位窗口自注意力机制模块。2.1.1 W-MSA窗口注意力机制在原始MSA模块中,特征图内每个像素需要与所有像素进行关联计算
14、得到注意力值Attention(用At表示),MSA会对输入特征图的每一个像素进行求解Q、K、V,每一个像素求得的Q会和特征图上每一个像素的K进行匹配。然后再进行一系列的操作。Attention数值计算公式如式(1)所示7。At=(Q,K,V)=SoftMax(QKTd+B)V (1)式中:Q和K是计算At权重的特征向量;V为输入特征的向量;T为转置符号;d为Q/K的维度;B为相对位置偏差。假设Q、K、V的向量长度与特征图的深度C一致,h和w分别为特征图的高和宽,令X=Qhw C,Y=Athw C,Z=WC Cq那么所有像素Q产生的过程如式(2)所示。X=Y Z (2)式中:Y为将所有像素拼接
15、在一起得到的矩阵;Z为生成q的变换矩阵;X为所有像素通过Z得到的q拼接后的矩阵。根据矩阵运算的计算量公式分别算出Q、V的计算量,所以最终可得原始MSA模块计算总量如式(3)所示。4hwC2+2(hw)2C (3)而W-MSA窗口注意力机制首先会对特征图进行分割处理,分割为一个个的小窗口,然后在每一个窗口内部执行MSA,以此来减少计算量。故使用W-MSA 的计算量为4hwC2+2M2hwC(M 是特征图的尺寸)。2.1.2 SW-MSA移位窗口自注意力机制由上述分析可知,虽然W-MSA窗口注意力机制解决了计算复杂度的问题,但是窗口和窗口之间还没有交互,这样就达不到全局建模,所以提出了移位窗口的方
16、式。每做一次W-MSA窗口注意力,就做一次SW-MSA移位窗口自注意力,通过窗口移位达到窗口和窗口之间的交互。SW-MSA 移位窗口示意图如图3所示。通过图3的移位过程看可以发现,窗口和窗口间有信息交互,但是出现了新的问题窗口变多且计算量又增加了,所以提出了另一种更加高效的计算方法。对划分区域进行平移,如图4 所示:将图4(a)中A、B、C区域移动到最底部,得到图4(b);再将图4(b)中D、G、A区域移动到最右边,得到4(c);最后重新划分为4个区域,得到图4(d)。这样就确保了和原来一样是4个窗口,计算量是一样的。2.2 损失函数改进目前损失函数有很多,GIoU(Generalized-I
17、oU)考虑了重叠面积,基于交并比(intersection over union,IoU)解决边界框不相交时loss等于0的问题;DIoU(Distance-IoU)考虑了重叠面积和中心点距离,基 于 IoU 解 决 GIoU 收 敛 慢 的 问 题;CIoU(Complete-IoU)考虑了重叠面积、中心点距离、纵横比,基于DIoU提升回归精确度。YOLOv5采用CIOU图2Swin-Transformer架构流程7图3移位窗口68第 2 期孙廨尧,侯秀丽,罗青青:基于改进YOLOv5的遥感图像飞机目标检测损失函数,不管是GIoU、DIoU还是CIoU都没有考虑到真实框与预测框之间的方向,导
18、致某种程度上收敛速度还是较慢。对此,2022年Gevorgyan8提出了一种损失函数SIOU(Smoothed-IoU),其引入真实框和预测框之间的向量角度重新定义相关损失函数,具体包含了角度损失、距离损失、形状损失和IOU损失。其中,角度损失定义如式(4)所示8。=1-2 sin2(arcsin(ch)-4)=cos(2(arcsin(ch)-4)(4)式中:ch为两目标框中心点的纵向距离;为两中心点对角线距离。距离损失定义如式(5)所示8。=t=x,y()1-e-t=2-e-x-e-y (5)式中:t为一个参数位置;x、y分别为最小外接矩形左上坐标和右下坐标;Px为真实框和预测框中心点的宽
19、度差与最小外接矩形宽之比的平方;Py为真实框和预测框中心点的高度差与最小外接矩形高之比的平方。其中,=2-。形状损失定义如式(6)所示8。=t=w,h(1-e-wt)=(1-e-ww)+(1-e-wh)(6)式中:ww为预测框宽减去真实框宽的绝对值与预测框宽和真实框宽中的最大值的比值果;wh为预测框高减去真实框高的绝对值与预测框高和真实框高中的最大值的比值。其中,wh=|h-hgtmax()h,hgt,ww=|w-wgtmax()w,wgt (7)式中:(h,w)和(hgt,wgt)分别为预测框和真实框的高和宽;值表示对形状损失的关注程度。如果的值设置为1,它将立即优化一个形状,从而损害形状的
20、自由移动。最终,SIOU损失函数(用Sl表示)定义如式(8)所示8。Sl=1-Io+2 (8)式中:Io为齐交比。在遥感图像飞机目标检测中,采用SIOU损失函数替换原始算法CIOU损失函数来加快收敛速度。3 实验与分析3.1 实验数据由于硬件设备限制,采用自构建的小样本量数据集,并默认使用YOLOv5自带的数据增强方式进行测试。为了获取遥感图像的多样性,自构建含有飞 机 的 遥 感 图 像 数 据 集 从 DOTA、WHU-RS19、RSD46-WHU等数据集中筛选而来,统一标准处理后,共计2 602张遥感图片。训练集测试集验证集=6 2 2。3.2 实验结果分析实验采用Pytorch深度学习
21、框架,训练轮数epochs设置为300。改进后算法命名为YSS-YOLOv5。由表1可知,在YOLOv5网络模型基础上添加Swin-Transformer结构、改进损失函数为SIOU后,在保持原有检测精度的同时,召回率R有所提升,从90.6%提升为 91.2%,上涨 0.6 个百分点;平均检测精度mAP0.5由 95.5%提升到 95.7%,上涨 0.2 个百分点。同时参数量 Parameters 由原来的7 012 822降低为4 821 600,能有效提高推理速度。对比实验结果表明,改进后算法模型召回率和平均检测精度均有所提升,有助于识别遥感图像中的飞机目标。从算法模型其他对比结果看,改进
22、后算法检测性能有了一定的提升。算法改进前后精确度P对比曲线和平均精确度mAP0.5对比曲线如图5所示,召回率R对比曲线如图6所示。虽然最终结果显示改进前后算法检测精度相同,都为0.953,但从精度曲线来看,大概在训练100轮后有所提升,实际检测效果也有所提高(图5)。图4移位窗口过程示意图表1实验结果算法YOLOv5YSS-YOLOv5Parameters7 012 8224 821 600P0.9530.953R0.9060.912mAP0.50.9550.95769西昌学院学报(自然科学版)第 37 卷为了更直观展示检测效果,算法改进前后检测效果对比如图7所示。由图7可知,此遥感图像中飞机
23、尺寸大小不一,图像背景目标类别复杂。左侧目标飞机在原算法中置信度为0.93,在改进后算法中置信度为0.94,提升1%;右侧目标飞机在原算法中置信度为0.90,在改进后算法中置信度为0.92,提升2%;上方小飞机在原算法中置信度为0.30,在改进后算法中置信度为0.49,提升19%。由此可知,改进后算法模型能在一定程度上提升检测效果。4 结语本文对遥感图像飞机目标检测中背景复杂、数量多且密集等问题,在YOLOv5网络模型基础上进行 了 优 化。优 化 后 网 络 模 型 通 过 引 入 Swin-Transformer结构来提升全局建模能力和全局检测能力;通过将CIOU损失函数替换为SIOU函数
24、,提高算图6算法改进前后召回率R对比曲线(a)检测精度P对比曲线(b)平均检测精度mAP0.5对比曲线图5算法改进前后精确度P与平均检测精度mAP0.5对比曲线图7算法改进前后检测效果图70第 2 期孙廨尧,侯秀丽,罗青青:基于改进YOLOv5的遥感图像飞机目标检测法在背景复杂、数量多且密的情况下的定位能力。对比实验结果表明,优化后网络模型算法更适应遥感图像飞机目标检测的特点,召回率提升了0.6%,平均检测精度提升了0.2%。表明优化后网络模型算法有一定的提升效果。参考文献:1李惠惠,范军芳,陈启丽.改进YOLOv5的遥感图像目标检测 J.弹箭与制导学报,2022,42(4):17-23.2曾
25、伦杰,储珺,陈昭俊.二阶段锚框和类均衡损失的遥感图像目标检测 J.图学学报,2023,44(2):249-259.3张云佐,郭威,蔡昭权,等.联合多尺度与注意力机制的遥感图像目标检测 J.浙江大学学报(工学版),2022,56(11):2215-2223.4KALA K,PADMASINI N,KAPALI B,et al.A new framework for object detection using fastcnn-Nave Bayes classifier for remote sensing image extraction J.Earth Science Informatics,
26、2022,15(3):1779-1787.5HOU Y J,SHI G,ZHAO Y X,et al.R-Yolo:a Yolo-based method for arbitrary-oriented target detection in high-resolution remote sensing images J.Sensors,2022,22(15):5716-5716.6张学志,赵红东,刘伟娜,等.基于改进YOLOv5的红外车辆检测方法 J/OL.红外与激光工程:1-11 2023-06-08.http:/ Z,LIN Y T,CAO Y,et al.Swin transformer
27、:hierarchical vision transformer using shifted windows C 2021 IEEE/CVF International Conference on Computer Vision,October 10-17,2021,Montreal,QC,Canada.New York:IEEE Press,2021:9992-10002.8GEVORGYAN Z.SIoU loss:more powerful learning for bounding box regressionEB/OL.(2022-05-25)2022-10-02.https:/arxiv.org/abs/2205.12740.71