1、0228004-1第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展研究论文基于 YOLOX-Tiny的轻量级遥感图像目标检测模型郎磊1,刘宽2,王东1*1北京交通大学计算机与信息技术学院,北京 100044;2郑州轻工业大学计算机与通信工程学院,河南 郑州 450001摘要 为了解决高分辨率遥感图像目标检测存在的背景复杂多样、密集的物体分布及目标尺度差异大等问题,同时考虑到应用场景对模型资源的限制,提出了一种基于 YOLOX-Tiny的轻量级遥感目标检测网络。首先采用多尺度预测方法增强对密集目标的检测能力;其次引入协同注意力模块提高重要特征关注度,抑制背景噪声;再者通过可变形
2、卷积替换关键预测卷积层,强化空间建模能力;最后优化损失函数,改善遥感目标定位精度。在公开的遥感图像目标检测数据集DIOR上评估了所提算法的有效性,实验结果表明:相比基准算法(YOLOX-Tiny),所提算法在平均精度(AP)和 AP50指标上分别提升 4.1个百分点和 4.42个百分点;在保持较高精度的前提下,每秒检测帧数(FPS)达到 46,可满足实时检测的需求,优于其他先进算法。关键词 遥感;目标检测;YOLOX-Tiny;遥感图像;协同注意力模块;可变形卷积;CIOU中图分类号 TP391.4 文献标志码 A DOI:10.3788/LOP212699Lightweight Remote
3、 Sensing Object Detector based on YOLOX-TinyLang Lei1,Liu Kuan2,Wang Dong1*1School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China;2Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450001,Henan,ChinaAbstract To solve prob
4、lems in the complex geometry scene,dense object distribution,and the large range of object size variations in high-resolution remote sensing object detection and to address the limitations of model resources in application scenarios,a lightweight remote sensing object detector based on YOLOX-Tiny is
5、 proposed.A multi-scale prediction method is used to enhance the detection capability of dense objects.Moreover,a coordinate attention module is introduced to improve the attention of important characteristics while suppressing background noise.The key prediction convolution layer is replaced by def
6、ormable convolution to strengthen the spatial modeling capability.Finally,the loss function is optimized to increase the localization accuracy of remote sensing objects.The effectiveness of the proposed algorithm is evaluated on the public remote sensing image target detection dataset DIOR.The exper
7、imental results show that compared with the benchmark algorithm(YOLOX-Tiny),the proposed algorithm improves the average precision(AP)and AP50 indexes by 4.1 percentage points and 4.42 percentage points respectively;on the premise of maintaining high accuracy,the number of detection frames per second
8、(FPS)reaches 46,which can meet the needs of real-time detection and is superior to other advanced algorithms.Key words remote sensing;object detection;YOLOX-Tiny;remote sensing image;coordinate attention module;deformable convolution;CIOU1引言近年来,随着航天遥感技术的快速发展,高分辨率光学遥感图像的获取变得越来越便利,针对光学遥感图像的分析和研究逐渐成为了关
9、注的焦点1。图像的分类、检测、分割和跟踪等任务成为遥感图像处理方向的热门话题2,其中目标检测任务在现实生活中呈现出广阔的应用前景,受到研究人员的追捧3。收稿日期:2021-10-11;修回日期:2021-11-11;录用日期:2021-11-29;网络首发日期:2021-12-08基金项目:国家重点研发计划项目(2019YFB2204200)、北京市自然科学基金(4202063)、中央高校基本科研项目(2020JBM020)通信作者:*0228004-2研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展在目标检测任务中,基于深度神经网络的方案展现出优于传统方法的性能4。
10、目前,典型目标检测模型可分为两类:1)以 SSD5和 YOLO6等算法为代表的一阶段检测算法,该类算法直接对输入图像进行回归,预测目标类别和位置坐标,虽然检测速度快但精度低;2)以 Faster R-CNN7和 Mask R-CNN8等算法为代表的两阶段检测算法,该类算法首先利用区域建议网络找到可能包含目标的区域,然后使用第 2 个网络对候选区域进行分类和位置的预测,其检测精度高但速度慢。如今,基于深度神经网络的目标检测算法已成功应用于各个领域,其中不乏对遥感图像目标检测任务的尝试。然而,遥感图像与自然图像之间存在较大差异,背景复杂多样、密集的物体分布及目标尺度差异大等特点使得遥感图像的目标检
11、测任务成为一个难题。Zhao 等9提出了一种基于 SSD 的多尺度遥感目标检测方法,该方法通过通道注意力模块加强对象间的长期语义依赖关系。戴媛等10提出了一种基于Faster R-CNN 改进的遥感目标检测方法,且该方法取得了良好的检测结果。吴湘宁等11提出了一种基于Mask R-CNN 的小目标检测方法,该方法实现了对遥感图像中船只的稳定检测。虽然基于深度学习的目标检测方法在遥感图像上取得了较高的检测精度,但是在现实环境中,遥感目标检测任务常用于灾害监测、野外救援、国防安全和城市规划等民用12和军事领域13,这对算法的准确性、实时性 和 部 署 性 都 有 着 严 格 的 要 求。农 元 君
12、 等14以YOLOv3-Tiny作为基础网络,通过改善网络结构来提高识别能力,并在通用遥感图像上实现了实时检测。沈丰毅等15提出了一种基于改进 YOLOv3 的神经网络舰船检测算法,该算法权衡了识别精度和速度。闫皓炜等16提出了一种基于 CenterNet模型的实时目标检测算法,并将其应用于电力基础设施的规划和建设中,实现了对输电杆塔的自动识别。尽管这些算法能够在特定遥感任务中满足实时性需求,但其精确度远低于当前先进算法。为了平衡算法在遥感目标检测任务上的检测精度和速度,本文提出了一种轻量级遥感目标检测算法。以 YOLOX-Tiny为基础网络框架,通过修改原始网络结构、优化模型训练损失函数,改
13、善算法对遥感图像中复杂信息的提取能力。在大型遥感目标检测数据集上的结果表明了所提算法的优秀检测性能。2YOLOX-Tiny算法介绍YOLO 系列17-18有着十分优秀的实时检测性能,其中 YOLOX19作为当下最新的版本,检测性能达到了新的高度。YOLOX-Tiny 则是其轻量化版本,结构精简、检测速度快。因此,本研究选用 YOLOX-Tiny作为遥感目标检测任务的基准,所提算法框架主要包括 3个部分:骨干网络(Backbone)、颈部(Neck)和检测头(Head),如图 1 所示,Conv 表示深度卷积运算,BN 图 1YOLOX-Tiny网络结构图Fig.1YOLOX-Tiny netw
14、ork structure0228004-3研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展表示批归一化操作,upsample 是采用最近邻算法的上采样操作,Concat是特征图的拼接操作,CBS由 Conv、BN 和 SiLU 组成。Backbone 采用 Modified CSPNet20和激活函数 SiLU 来提取输入图像的深度语义信息:其中 focus层21由切片操作和基础卷积运算组成,在保证低参数量和计算量的同时完成下采样操作;空间金字塔池化(SPP)层由池化核大小分别为 55、99、1313 的最大池化操作(Maxpool)和基础卷积组成,用于扩大感受野且
15、不显著增加模型尺寸。Neck 位于Backbone 和 Head 之间,采用 feature pyramid network(FPN)22和 pyramid attention network(PAN)23来 融合浅层细节和深层语义信息(特征层由浅至深分别为I3、I4、I5),并输出 3 个尺度的特征图(P3、P4 和 P5)。Head 由 1 个共享卷积、2 个分支的额外卷积和各个任务 单 独 的 卷 积 组 成,用 于 预 测 目 标 的 定 位 偏 移 量(Reg.)、交并比(IoU)感知分类分数(Obj.)和分类分数(Cls.)。虽然 YOLOX-Tiny在自然图像下表现良好,但其在光
16、学遥感图像上仍存在以下问题:1)YOLOX-Tiny网络深度较浅,对高维特征语义信息提取不完善,极大限制了模型的发挥。此外,模型在单层通道数量上相对较少,不足以保留遥感图像中丰富的信息量,特别是在经过不断卷积后,重要的细节信息丢失严重,影响目标边界和小物体的判断。2)YOLOX-Tiny 在检测时不能有效地覆盖所有物体,尤其是分布密集且比例差异大的遥感物体。对于输入分辨率为 416 pixel416 pixel 的遥感图像,模型用于预测的特征图仅有 1313、2626和 5252等3 个 尺 度,可 以 有 效 识 别 大 小 为 32 pixel32 pixel、16 pixel16 pixel和 8 pixel8 pixel以上的物体,但对于小于 8 pixel8 pixel 的物体,检测丢失的可能性较大24。图 2展示了不同尺度下目标位置与预先设定检测框在原图上的映射,实线框体为储罐具体位置,虚线框体为预先设定检测框,其中储罐在缩放后图像中的分 辨 率 为 5 pixel5 pixel,储 罐 在 检 测 时 容 易 被忽略。3改进 YOLOX-Tiny算法为了解决遥感目标检测任