基于多阶段提议稀疏区域卷积网络的城市交通目标检测

资源描述

1、第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023基于多阶段提议稀疏区域卷积网络的城市交通目标检测柳长源1，张玉亮1，毕晓君2（1.哈尔滨理工大学测控技术与通信工程学院，黑龙江哈尔滨 150080；2.中央民族大学信息工程学院，北京 100081）摘要：针对城市交通场景多目标检测算法检测速度慢，检测精度低等问题，本文提出多阶段提议稀疏区域卷积网络算法（Multi-stage Proposal Sparse Region-based Convolutional Neural Network，MPS R-CNN）.算法主要有以下

2、特点：提出了一种多阶段提议框过滤更新机制，提高算法检测精度；提出了一种双向并联特征金字塔网络（Bidirectional Parallel Feature Pyramid Network，BPFPN），增强了模型的特征融合能力；针对城市交通场景目标检测问题引入了Copy-Paste数据增强方法和CIoU损失函数.实验结果显示，MPS R-CNN算法在Urban Object Dataset数据集上mAP达到了77%，算法检测速度保持在37 fps，优于目前其他城市交通场景目标检测算法.关键词：目标检测；城市交通；提议过滤；特征金字塔；数据增强基金项目：国家自然科学基金（No.51779050）

3、；黑龙江省自然科学基金（No.F2016022）中图分类号：TP391.4；TP181文献标识码：A文章编号：0372-2112(2023)01-0026-06电子学报URL:http:/DOI:10.12263/DZXB.20211648Urban Traffic Object Detection Based on Multi-StageProposal Sparse R-CNNLIU Chang-yuan1,ZHANG Yu-liang1,BI Xiao-jun2(1.College of Measurement and Control Technology and Communicati

4、on Engineering,Harbin University of Science and Technology,Harbin,Heilongjiang 150080,China;2.School of Information Engineering,Minzu University of China,Beijing 100081,China)Abstract:Aiming at the slow speed and low accuracy of multi-object detection algorithms in urban traffic scenes,this paper pr

5、oposes a multi-stage proposal sparse region-based convolutional neural network algorithm(MPS R-CNN).The algorithm mainly has the following characteristics:a multi-stage proposal box filtering update mechanism is proposed to improve the detection accuracy of the algorithm;a bidirectional parallel fea

6、ture pyramid network(BPFPN)is proposed to enhance the model feature fusion capability;for the problem of object detection in urban traffic scenes,the Copy-Paste data augmentation method and CIoU loss function are introduced.The experimental results show that the MPS R-CNN algorithm achieves 77%mAP o

7、n the urban object dataset,and the algorithm detection speed remains at 37 fps,which is better than other current urban traffic object detection algorithms.Key words:object detection;urban traffic;proposal filtering;feature pyramid;data augmentationFoundation Item(s):National Natural Science Foundat

8、ion of China(No.51779050);Natural Science Foundation of Heilongjiang Province(No.F2016022)1引言目标检测的发展为自动驾驶辅助系统、无人驾驶汽车自动导航等未来智能交通系统奠定了基础.经典目标检测主要利用滑动窗口或图像分割方法来产生大量候选区域，对候选区域进行特征提取，常用方法如SIFT1等，最后将局部特征传递给分类器进行识别.传统方法检测效果难以满足实际应用需求.近年来，大量基于深度学习的目标检测算法被提出.这些算法通常分为两大类：（1）基于候选区域（Region Proposal）的二阶段目标检测算法，如

9、R-CNN2等；（2）基于回归的一阶段目标检测算法，如YOLO3等.前者使用区域提议网络生成候选区域，后者直接在特征图上生成候选框.收稿日期：2021-12-12；修回日期：2022-07-01；责任编辑：李勇锋第 1 期柳长源:基于多阶段提议稀疏区域卷积网络的城市交通目标检测目前，两类方法都有着大量的应用.李宝奇4等人采用并行附加特征的SSD网络检测地面小目标.伍锡如等人改进MaskR-CNN5算法用于交通场景的多目标检测和分割.目前针对城市交通场景的目标检测方法如 RetinaNet6等，仍存在检测精度低，检测速度慢的问题.Sparse R-CNN7是2020年Sun等人提出的目标检测算法

10、，使用ResNet-508，FPN9模型在MSCOCO数据集上检测速度为 40 fps，检测精度 mAP50为 63.4%，是目前最优秀的目标检测算法之一.2Sparse R-CNN算法简介Sparse R-CNN 由骨干网络、动态实例交互头和两个预测层组成，结构简洁.算法采用稀疏提议结构，提议框数量和交互特征远少于传统方法10，降低了计算量.其采用 ResNet与 FPN作为主干网络，使用可学习提议框在特征图上提取感兴趣区域特征，然后通过动态交互头与可学习提议特征交互得到特征向量用于分类和回归，并重复多次.算法使用Focal Loss6函数计算分类损失，使用GIoU损失函数计算定位损失.同时

11、，算法使用基于固定数量的集合预测损失来进行分类和回归.在预测结果与真实结果之间进行最优二分图匹配，匹配代价如式（1）所示：L=clsLcls+L1LL1+giouLgiou（1）其中，Lcls是预测类别与真实类别的焦点损失（Focal Loss），LL1和Lgiou是预测框与真实框的归一化的中心坐标、宽度和高度之间的 L1 损失和 GIoU 损失，cls=2，L1=5和giou=2是各部分损失的比例系数.模型采用基于集合的损失，避免了R-CNN系列算法中多对一匹配的问题，但存在随检测框数量增加检测精度提高而检测速度降低的问题.3MPS R-CNN算法本文提出的 MPS R-CNN算法，继承 S

12、parse R-CNN算法稀疏、简洁的特点，并进一步提高.为此，本文提出多阶段提议过滤机制，BPFPN结构，引入Copy-Paste11数据增强和CIoU12损失函数，MPS R-CNN算法整体结构如图1所示.3.1双向并行特征金字塔城市交通状况复杂，物体检测易受干扰，需结合多层次特征提高精度.受 PAFPN 13（Path Aggregation Feature Pyramid Network）启发，本文提出了图2所示双向并行特征金字塔网络（Bidirectional Parallel Feature Pyramid Network，BPFPN）.其中P2P5是ResNet50提取的4种含不

13、同层次信息的特征图，向上的箭头表示上采样，反之表示下采样.BPFPN采用并行双向特征融合，精度与PAFPN相当，高于自顶向下融合的FPN，同时在检测速度上快于PAFPN.P5P4P3P2P1K=0,50,25,0,0,0卷积P5P4P3P2P5P4P3P2C5C4C3C2K个提议框0.01.00.5筛去分类得分最低的K个提议框N个可学习提议特征RoI特征提取动态交互头分类头回归头图1MPS R-CNN算法整体结构C5C4C3C2卷积P5P4P3P2P5P4P3P2P5P4P3P2C5C4C3C2P5P4P3P2C5C4C3C2(FPN)(BPFPN)(PAFPN)图2特征金字塔网络结构对比图2

14、7电子学报2023 年3.2多级提议过滤机制SparseR-CNN算法在开始阶段引入可学习提议框，若初始N个提议框未覆盖图中所有目标，后续环节也将丢失目标，且随检测框数量增加检测速度会下降.本文提出图 1蓝色虚线框所示的提议过滤机制（即算法1），对前三个环节提议框进行过滤筛选，将分类得分最低的 K 个提议框参数重置.算法检测精度提高7%mAP，速度仅降低 1 fps，检测效果超过使用 N+K 个可学习提议框的Sparse R-CNN模型.3.3CIoU本文使用CIoU损失替换GIoU损失进行目标边界框回归.解决了预测框与真实框为垂直或包含关系时GIoU 退化成普通

15、 IoU，优化能力严重下降的问题.式（2）所示的CIoU损失函数能直接最小化中心点间的距离，将边框纵横比也考虑在内，提升检测框回归的合理性和检测精度.LCIoU=1-IoU+2()b,bgtc2+vv=42()arctan wgthgt-arctan wh2=v()1-IoU+v（2）其中，b,bgt分别为预测框和真实框中心点，表示两个中心点间的欧氏距离，IoU为两框交并比，c为同时包含预测框和真实框的最小闭包区域的对角线距离，v用来衡量长宽比的相似性，用来平衡各项之间的重要性，w,h,wgt,hgt分别表示预测框的宽高和真实框的宽高.3.4数据增强在本文使用的城市目标数据集14（Urban

16、Object Dataset）中，存在大量小尺度目标，如交通标志、交通灯、远处的车辆行人等，本文使用Copy-Paste数据增强提高模型对小目标的检测能力.采用随机选择图中目标复制后再随机粘贴到图中任意位置的方式进行样本扩充，操作简单且效果良好.为减少目标背景对待检测目标的干扰，本文还进行了目标背景抠除的Copy-Paste matting 数据增强实验进行对比.其中，Copy-Paste 与Copy-Paste matting 数据增强使用如图 3 所示的方式完成.4实验及结果分析4.1实验数据集本文采用 RoViT（Robotics&Tridimensional Vision Research Group）组织公布的城市目标检测数据集14进行实验，数据集包含7类常见城市目标共106 917张，分别为自行车、公交车、汽车、摩托车、人、交通灯、交通标志，随机划分训练集、验证集、测试集比例约为4：4：2.样本分布如图4所示，较多小尺度目标和遮挡目标，部分类别样本量较少，符合真实情况.4.2实验环境实验硬件环境采用 IntelCore i9-9900K 处理器，GTX 1080Ti显卡，软

展开阅读全文

基于多阶段提议稀疏区域卷积网络的城市交通目标检测_柳长源.pdf