1、基金项目:国家自然科学基金项目(61563005)收稿日期:2021-06-02 修回日期:2021-06-10 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0128-06基于 YOLOv4 的车辆与行人检测网络设计谭光兴,岑满伟,苏荣键(广西科技大学电气与信息工程学院,广西 柳州 545616)摘要:针对 YOLOv4 网络模型参数量大,难以在资源有限的设备平台上运行的问题,提出一种对 YOLOv4 轻量化的车辆和行人检测网络。以 MobileNetV1 为主干网络,将 PANet 和 YOLO Head 结构中的标准卷积替换
2、成深度可分离卷积,减少模型参数量;同时利用跨深度卷积结合不同膨胀率的空洞卷积构建特征增强模块,改善不同预测层对车辆和行人尺度变化的适应能力,提高网络的检测精度。实验结果表明,上述网络模型大小为 45.28MB,检测速度为 44FPS,相比 YOLOv4 模型大小减少 81.44%,检测速度提升 91.30%,在 PASCAL VOC2007 测试集上,检测精度达到 86.32%,相比 MobileNetV1-YOLOv4 原网络提高 1.29%的精确度,能够满足实时高效的检测要求。关键词:深度学习;目标检测;特征增强;轻量化中图分类号:TP183 文献标识码:BDesign of Vehicl
3、e and Pedestrian Detection NetworkBased on YOLOv4TAN Guang-xing,CEN Man-wei,SU Rong-jian(School of Electrical and Information Engineering,Guangxi University of Scienceand Technology,Liuzhou Guangxi 545616,China)ABSTRACT:Aiming at the problem that the number of YOLOv4 network model parameters is larg
4、e and is difficultto run on device platforms with limited resources,a lightweight vehicle and pedestrian detection network for YOLOv4is proposed.Using MobileNetV1 as the backbone network,the standard convolution in the PANet and YOLO Headstructure is replaced with a deep separable convolution to red
5、uce the amount of model parameters;at the same time,the cross-depth convolution combined with the atrous convolution with different dilation rates is used to construct afeature enhancement module,improving the adaptability of different prediction layers to the scale changes of vehiclesand pedestrian
6、s and increasing the detection accuracy of the network.The experimental results show that the size ofthe network model is 45.28MB,which is 81.44%smaller than that of the YOLOv4 model;its detection speed is44FPS,an increase of 91.30%compared to the YOLOv4 model.On the PASCAL VOC2007 dataset,the detec
7、tionaccuracy reaches 86.32%,an increase of 1.29%compared to the original MobileNetV1-YOLOv4,which meets therequirements of real-time and efficient detection.KEYWORDS:Deep learning;Object detection;Feature enhancement;Lightweight1 引言随着机器视觉和人工智能的不断发展,自动驾驶技术已成为当今汽车发展的研究热点,其中前方道路的障碍物检测技术是自动驾驶汽车所面临的挑战。车辆
8、和行人是汽车正常行驶时前方常见的障碍物,实现对车辆和行人的准确且实时检测已成为目标检测技术领域的研究热点1。考虑到设备平台资源有限,目标检测系统不宜占用较大内存,要求检测系统轻量、实时且精准。如今,基于深度学习的目标检测算法不断发展,已经成为对车辆和行人检测主流的方法,主要分为 two-stage 和 one-stage 两种目标检测网络。two-stage 目标检测网络主要是基于侯选区域的检测算法,Girshick 等2最早提出 R-CNN网络,先产生侯选区域,再对侯选区域进行分类和回归。之后提出 Fast-RCNN3,使用感兴趣区域池化结构对候选区域821进行尺度同一化以及引入多任务损失函
9、数,提升网络性能。Girshick 等4基于区域侯选网络结构,再次提出 Faster-RCNN 网络。He 等5提出 Mask-RCNN 算法,通过引入 Mask分支和 RoIAlign 结构,取得较好地检测能力。虽然 two-stage目标检测网络精度高,但检测速度相对较慢,实时性较差。one-stage 目标检测网络是基于回归思想,采用端到端的检测方法,直接产生目标物的位置坐标和类别概率。Redmon等6提出 YOLOv1 算法,将整张图像送入网络训练,在输出层完成对目标物的分类和定位,检测速度得到提升。Liu等7提出 SSD 算法,引入先验框进行回归,并结合多尺度特征来提高目标物的检测能
10、力。Redmon 等8提出 YOLOv2 算法,使用 K-Means 聚类出先验框进行检测。随后再次提出YOLOv39,采用 Darknet-53 作为主干网络,采用特征金字塔结构,融合多尺度特征进行检测。Bochkovskiy 等10提出YOLOv4 算法,该网络汇集目前主流的优化技巧以及复杂的网络结构,能够精准地检测目标物,在 YOLO 系列算法中较为先进的。但是 YOLOv4 网络参数量和模型体积庞大,占用较大内存,难以在运算能力较弱的嵌入式设备实时地检测目标物。在设备计算资源有限的情况下,目标检测网络需要综合考虑检测精度和检测速度两者问题。针对 YOLOv4 的不足之处,本文对其算法进
11、行轻量化,用 MobileNetV1 轻量化网络替换主干网络,进一步将网络中的标准卷积替换为深度可分离卷积,减少模型参数量;为弥补精度损失的降低,构建与各预测层特点相适应的特征增强模块,借助跨深度卷积和空洞卷积结构来改善各预测层对车辆和行人尺度变化的适应能力。改进后的 MobileNetV1-YOLOv4 网络模型具有参数量少、体积小、速度快的优点,在精度上有一定地提升,提高了对小目标的检测能力。2 网络模型分析2.1 YOLOv4 网络结构YOLOv410网络结构可以看成四个模块组成:特征提取模块、空间金字塔池化模块、路径聚合网络模块以及预测模块。相比 YOLOv3 的 Darknet53
12、主干网络,YOLOv4 融入交叉阶段部分连接(Cross State Partial,CSP)11,设计出 CSP-Darknet53 特征提取结构,增强网络学习能力,也降低计算复杂度。加入空间金字塔池化模块(Spatial Pyramid Pooling,SPP)12,融合局部和全局特征,增大网络感受野;为改善深层网络丢失浅层网络信息的问题,引入路径聚合网络(PathAggregation Network,PANet)13;预测模块结构上没有变化,依旧采用 Yolo Head1、Yolo Head2、Yolo Head3 检测头对不同尺度进行预测,得出最后的类别、置信度和预测边框信息。以输入
13、尺寸为 416416,目标类别数为 20 的 YOLOv4 网络结构如图 1 所示。在损失函数方面,YOLOv4 使用 CIOU 作为目标边界框回归损失函数,避免出现预测框和真实框没有重叠部分而无图 1 YOLOv4 网络结构法优化 IOU 损失的问题。CIOU 综合考虑预测框和真实框的重叠面积、中心点距离以及长宽比,优化预测框回归精度和速度,损失函数如式(1)所示LCIOU=1-IOU+2(b,bgt)c2+(1)其中=(1-IOU)+(2)=42arctanwgthgt-arctanwh|2(3)式中的 p2(b,bgt)表示为预测框的中心点 b 与真实框的中心点 bgt的欧氏距离,c 表
14、示为包围真实框和预测框的最小外接矩形的对角线距离。是用来协调比例参数,是用来衡量长宽比一致性的参数,wgt、hgt表示真实框的宽高,w、h 表示预测框的宽高。2.2 MobileNet 网络结构MobileNet14是考虑专门将网络模型使用在嵌入式设备或者移动设备上,所提出的一种轻量化的网络模型,其核心思想是采用深度可分离卷积结构。相比标准卷积,深度可分离卷积结构主要分为深度卷积(Depthwise Convolution)结构和点卷积(Pointwise Convolution)结构。深度卷积(DW)对输入特征的每个通道分别用卷积核进行卷积,大幅度地减少卷积计算量;点卷积(PW)通过 11
15、卷积核整合深度卷积后的特征图信息,使每张的输出特征图信息都能包含每张输入特征图信息。标准卷积和深度可分离卷积的结构对比如图 2所示。921图 2 标准卷积和深度可分离卷积的结构图 2 中 DK和 1 为卷积核的尺寸大小,M 和 N 分别为网络的输入通道数和输出通道数,通过图 2 的结构对比,能够计算出标准卷积的参数量为 DKDKMN,深度可分离卷积的参数量为 DKDK1M+11MN。由此可知深度可分离卷积和标准卷积的参数量之比为:DK DK 1 M+1 1 M NDK DK M N=1N+1D2K(4)标准卷积的参数量大约是深度可分离卷积的 D2K倍,使用深度可分离卷积能够在跨通道整合特征信息
16、的同时,降低了网络参数量,提高模型推理速度。MobileNetV1 网络模型是基于深度可分离卷积结构搭建而成,其网络结构如表 1所示。表 1 MobileNetV1 网络结构Type/StrideFilter ShapeInput SizeConv/s2333322242243Conv dw/s13332 dw11211232Conv/s111326411211232Conv dw/s23364 dw11211264Conv/s11164128565664Conv dw/s133128 dw5656128Conv/s1111281285656128Conv dw/s233128 dw5656128Conv/s1111282562828128Conv dw/s133256 dw28 28256Conv/s1112562562828256Conv dw/s233256 dw2828256Conv/s11125651214142565Conv dw/s133512 dw14145125Conv/s1115125121414512Conv dw/s233512 dw1414512Conv/s1