1、616 Radio Communications TechnologyVol.49 No.4 2023doi:10.3969/j.issn.1003-3114.2023.04.004引用格式:黄豪杰,唐宗璐,杨敏,等.基于改进 YOLOv5 的交通指示牌检测J.无线电通信技术,2023,49(4):616-621.HUANG Haojie,TANG Zonglu,YANG Min,et al.Improved YOLOv5-based Traffic Sign Detection J.Radio Communications Tech-nology,2023,49(4):616-621.基于改
2、进 YOLOv5 的交通指示牌检测黄豪杰1,唐宗璐2,杨 敏3,李 航4(1.南宁师范大学 计算机与信息工程学院,广西 南宁 530100;2.北海市外国语实验学校,广西 北海 536000;3.合浦县实验学校,广西 北海 536100;4.广西民族大学 人工智能学院,广西 南宁 530006)摘 要:随着深度学习的不断发展,汽车自动驾驶已成为一种趋势,自动驾驶的安全问题是最重要的。其中,能准确识别复杂环境下密集的交通指示牌是保障安全驾驶的一个重要环节,针对目前检测模型对交通指示牌召回率不够高的问题,在 YOLOv5 的基础上提出了 YOLOv5-ACB。经过 300 次的迭代训练,实验结果表
3、明 YOLOv5-ACB 模型的mAP 为 62.9%、mAP50 为 83.6%、召回率为 76.6%,相比原始的 YOLOv5 模型的 mAP 为 62.45%、mAP50 为 82.6%、召回率为 74.6%,均有较好的提升,说明所提出的改进模型降低了交通指示牌的错检和漏检率。关键词:YOLOv5;非对称卷积;TT100K;目标检测中图分类号:TP391 文献标志码:A 开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)04-0616-06Improved YOLOv5-based Traffic Sign DetectionHUANG Haojie1,TA
4、NG Zonglu2,YANG Min3,LI Hang4(1.School of Computer and Information Engineering,Nanning Normal University,Nanning 530100,China;2.Beihai Foreign Language Experimental School,Beihai 536000,China;3.Hepu County Experimental School,Beihai 536100,China;4.School of Artificial Intelligence,Guangxi University
5、 for Nationalities,Nanning 530006,China)Abstract:With the continuous development of deep learning,autonomous driving of cars has become a trend.And the safety of au-tonomous driving is undoubtedly the most important issue,among which the ability to identify dense traffic signs accurately in complex
6、environment is critical to ensure safe driving.After 300 iterations of training,experimental results show that the proposed YOLOv5-ACB model has an mAP of 62.9%,an mAP50 of 83.6%and a recall rate of 76.6%,which are better than the original YOLOv5 model with an mAP of 62.45%,an mAP50 of 82.6%and a re
7、call rate of 74.6%.This indicates that the proposed improved model reduces the er-ror and miss detection rates of traffic signs.Keywords:YOLOv5;asymmetric convolution;TT100K;target detection收稿日期:2023-03-090 引言随着社会经济和计算机视觉的发展,自动驾驶逐渐成为了主流,自动驾驶的发展具有以下优点:降低出行成本。自动驾驶的发展可以促进汽车共享的推行,进而提高车辆利用率,降低汽油使用率及汽车排放量
8、。提升通行效率。随着社会和经济的发展,汽车增长率大幅度提升,出行拥堵问题也随之而来。拥堵因素有路口抢行、行车加塞、低速占位、恶意别车等。自动驾驶的推行可实现规范行车,大大提高通行效率。提升出行安全。随着汽车数量的增多,交通事故发生率也提高了,造成事故发生的原因有酒驾、疲劳驾驶、超速行驶等。自动驾驶的推行可以避免这些问题,使出行变得更安全。2023年第49卷第4期无线电通信技术617 随着深度学习的发展,计算机视觉已经应用在各种领域中。目标检测根据检测方法的不同分为两类:基于 anchor base 的二阶段网络。张宏宇基于 Faster-RCNN1提出了运用迁移学习来微调模型,并提出 3 种空
9、间金字塔池(Spatial Pyramid Poo-ling,SPP)结构和融入 Global Context 注意力2到骨干网络中,该模型减少了训练时间且具有良好的检测效果3;田智慧等人提出一种基于轻量级目标检测(Single Shot MultiBox Detector,SSD)4模型改进的卷积网络算法,模型实现不同特征层的多元信息分类预测与位置回归,并通过 K-means 聚类分析5对 SSD 默认框比例进行调整6。基于 anchor free 的一阶段网络。尹宋麟等人通过在 YOLOv4 上加入有效的通道注意力模块(Eefficient Channel Attention,ECA)7,
10、同时去掉 1919 的大感受野检测层并加入 152152 的尺度检测层,在 TT100K(Ts-inghua-Tencent 100k Tutorial)数据集上取得不错效果8;马露茜等人通过引入特征尺度的概念进一步改进 YOLOv3 算法9,获得了更好的精度和更短的检测时间10。基于 anchor free 的一阶段网络相比基于 anchor base 的二阶段网络具有检测速度快的优势11,而 YOLO 系列结合了多尺度特征融合、锚框匹配、残差连接等结构做到了检测精度高、模型小等优势。因此本文选择基于 YOLOv5 算法对交通指示牌检测进行研究。1 YOLOv5YOLOv5 模型可以分为 4
11、 个部分:输入端。常见的目标检测模型是将图片一张一张地输入模型且图片的输入尺寸也是固定的,这样使得推理速度大大降低,而 YOLOv5 在图片输入模型前首先使用Mosaic 数据增强,即将 4 张图片进行随机裁剪后再拼接成一张图片,这样处理相当于变相增大了 bach size,能加快网络的训练。不同的图片长宽比是不同的,将图片统一缩放到一个尺寸会出现信息冗余的问题,因此在进行了数据增强后,输入端将对图片进行自适应缩放后才输入网络。Backbone 骨干网络。对输入端输入的图片进行切片、卷积等操作后,得到一系列不同尺寸的特征图构成特征金字塔。路径聚合网络(Path Aggregation Netw
12、ork,PAnet)12。首先复制由骨干网络构成的特征金字塔的最底层特征,所复制的特征为新特征金字塔的底层;然后对新特征金字塔的底层进行下采样,将下采样后的特征图与原特征金字塔的倒数第二层特征融合13,得到新特征金字塔的倒数第二层特征,重复该操作构成新特征金字塔。Detect Head 输出层。将 PAnet 网络得到的新特征金字塔输入该层来完成最终检测结果的输出。YOLOv5 的结构图如图 1 所示。图 1 YOLOv5 的结构图Fig.1 YOLOv5 structure618 Radio Communications TechnologyVol.49 No.4 20231.1 网络的改进
13、为了提高在复杂场环境中对目标较小的交通指示牌的检测精度,使自动驾驶的安全系数进一步提高,在基于 YOLOv5 的基础上提出了 YOLOv5-ACB网络。在 YOLOv5 的基础上引入了非对称卷积和普通卷积的并行模块(Asymmetric Convolution Block,ACB),在不增加大量参数的前提下,提升网络的特征提取能力,改进的网络如图 2 所示。图 2 YOLOv5-ACB 结构图Fig.2 YOLOv5-ACB structure1.2 ACB 结构Backbone 在对图片进行特征提取时,浅层特征由于未经过多次的下采样操作,空间维度没有发生太大的变化,因此包含丰富的特征信息,这
14、些浅层的特征信息有利于网络对检测目标进行定位,而高层特征是经过多次下采样后得到的,因此得到的信息有利于网络对检测目标的特征进行学习。传统的骨干网络如 ResNet14(Residual Network)等都是依靠单个卷积不断堆叠加深网络,仅关注纵向的特征提取能力,而忽略了网络横向的特征提取能力,因此本文引入 ACB 结构来替换原始 YOLOv5 模型骨干部分的深层卷积,增强网络对目标特征的学习能力。ACB 结构如图 3 所示。该模块由一个 33 卷积和一个非对称卷积并行组成15。所有的卷积操作后都加入了 Batch Normalization(BN)来加快网络的收敛16。在训练阶段,该结构与原
15、始 YOLOv5 中的卷积结构相比,在引入较少参数的前提下,加强了网络的特征提取能力。其推理步骤如下:假定输入特征图为 I,其大小为 H W C,将其表示为 IRHWC,使用大小为 U V C 的卷积核 F RUVC,O RSTD表示特征图输出:O=IF,(1)式中:表示二维卷积计算。经过卷积层后,输出特征需要经过 BN 以减少模型过拟合,加快训练进程,该过程结合式(1)表示为:O=(IF-)+,(2)式中:和 为 BN 的平均值和标准差,和 为缩放系数和偏移量。由式(2)可得最终的输出为:O=O1+O2,(3)O1=(IF1-1)11+1,(4)O2=(IF2-2)22+2,(5)式中:F1
16、代表31 的卷积,F2代表13 的卷积,1、1、1、1、2、2、2、2分别代表对应的平均值、标准差、缩放系数和偏移量。2023年第49卷第4期无线电通信技术619 图 3 ACB 结构Fig.3 ACB structure2 实验结果与分析2.1 实验设置本文以清华与腾讯的联合实验室整理并公布的TT100K 数据集为基础17,选取其中的 45 类交通指示标志,分为训练集、验证集和测试集,其中训练集的图片数量为 6 793,验证集的图片数量为 1 949,测试集的图片数量为 996。模型使用服务器平台进行训练,平台操作系统为 Ubuntu18.04.6LTS,CPU 为11th Gen Inte
17、lR CoreTM i7-11700k 3.60 GHz16,内存为 31.2 GB,GPU 为 NVIDIA GeForce RTX 3090/PCle/SSE2。训练环境为 Pytorch1.12.1,cuda11.3,Python3.7。2.2 消融实验本文以 mAP、mAP50 和召回率作为模型的评估指标,由表 1 和图 4 可以看出,YOLOv5-ACB 与原始YOLOv5 相比,在 mAP 上提高了 0.45%,在 mAP50上提高了 1%,在召回率上提高了 2%。改进后的网络能够更好地提取所检测物体的特征,可以更加准确地检测目标。表 1 YOLOv5 与 YOLOv5-ACB 在
18、 TT100K 上的对比Tab.1 YOLOv5 vs YOLOv5-ACB on TT100K%网络模型mAPmAP50召回率YOLOv562.4582.674.6YOLOv5-ACB62.9083.676.6 模型改进后对目标交通指示牌的检测效果对比如图 5 所示。由图 5 可知,改进后的模型检测精度提高了,这是因为在面对小目标时,ACB 结构增强模型对高层特征的提取能力,能实现对小目标更好地检测。(a)YOLOv5-ACB(b)YOLOv5图 4 YOLOv5-ACB 与 YOLOv5 训练结果对比Fig.4 Comparison of YOLOv5-ACB and YOLOv5 tra
19、ining results(a)YOLOv5-ACB(b)YOLOv5图 5 模型检测对比Fig.5 Model detection comparison620 Radio Communications TechnologyVol.49 No.4 20232.3 对比实验由表 2 可知,与传统的二阶段网络(Two-stage Network)相比,如 Mask R-CNN18提出的 YOLOv5-ACB 网络在 mAP 上提升了 19%,在 mAP50 上提升了 28.1%,在召回率上提升了 24.2%。在精度有较大的提升下,计算量比传统的二阶段网络低了不少,可见改进的网络在检测速度和精度上都
20、有较大提升。表 2 YOLOv5-ACB 与 Mask R-CNN 的结果对比Tab.2 Comparison of YOLOv5-ACB and Mask R-CNN results网络模型mAP/%mAP50/%召回率/%Flops/109YOLOv5-ACB62.983.676.616.8Mask R-CNN43.955.552.4259.253 结束语以 YOLOv5 网络为基础,针对现有网络识别精度、召回率不高等问题,提出了基于改进 YOLOv5 的YOLOv5-ACB 模型。在目标检测中,底层特征包含丰富的特征信息,这些特征有利于模型对目标物体进行空间定位学习,高层特征包含丰富的局
21、部特征,有利于模型进行目标物体的特征学习,因此在高层特征引入 ACB,在仅增加少量计算量的前提下,提升模型对目标物体特征的提取能力,从而提升模型对目标物体的检测能力。实验结果证明,改进后的模型在 mAP 和召回率等指标上都有较好的提升。参 考 文 献1 REN S,HE K,GIRSHICK R,et al.Faster R-CNN:To-wards Real-time Object Detection with Region Proposal NetworksJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,20
22、17,39(6):1137-1149.2 CAO Y,XU J,LIN S,et al.GCNet:Non-local Networks Meet Squeeze-excitation Networks and BeyondC2019 IEEE/CVF International Conference on Computer Vision Workshop(ICCVW).Seoul:IEEE,2020:1971-1980.3 张宏宇.基于改进 Faster-RCNN 的交通标志检测D.西安:长安大学,2022.4 LIU W,ANGUELOV D,ERHAN D,et al.SSD:Singl
23、e Shot MultiBox DetectorC Proceedings of the 2016 European Conference on Computer Vision.Amsterdam:Springer,2016:21-37.5 AHMED M,SERAJ R,ISLAM S M S.The K-means Algo-rithm:A Comprehensive Survey and Performance Evalua-tionJ.Electronics,2020,9(8):1295.6 田智慧,孙盐盐,魏海涛.基于 SSD 模型的交通标志检测算法 J.计 算 机 应 用 与 软
24、件,2021,38(12):201-206.7 WANG Q,WU B,ZHU P,et al.ECA-Net:Efficient Chan-nel Attention for Deep Convolutional Neural NetworksCProceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition.Seattle:IEEE,2020:11534-11542.8 尹宋麟,谭飞,周晴,等.基于改进 YOLOv4 模型的交通标志检测J.无线电工程,2022,52(11):2087-209
25、3.9 REDMON J,FARHADI A.YOLOv3:An Incremental ImprovementJ/OL.(2018-04-08)2023-03-07.https:arxiv.org/abs/1804.02767.10 马露茜,吴钦木.基于改进 YOLOv3 的复杂环境下交通标志检测J.微处理机,2022,43(1):39-42.11 叶嘉欣.基于深度学习的两阶段目标检测算法综述J.互联网周刊,2023(5):16-18.12 LIU S,QI L,QIN H,et al.Path Aggregation Network for Instance SegmentationC20
26、18 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.13 LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature Pyra-mid Networks for Object DetectionCProceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:2117-2125.14 MOHIN
27、ANI H,CHUGH V,KAW S,et al.Vegetable and Fruit Leaf Diseases Detection Using ResNetC2022 Interdisciplinary Research in Technology and Management(IRTM).Kolkata:IEEE,2022:1-7.15 DING X,GUO Y,DING G,et al.ACNet:Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Con-volution BlocksC2019 I
28、EEE/CVF International Con-ference on Computer Vision(ICCV).Seoul:IEEE,2019:1911-1920.16 IOFFE S,SZEGEDY C.Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate ShiftC ICML15:Proceedings of the 32nd Internation-al Conference on International Conference on Machine Learn
29、ing.Lille:ACM,2015:448-456.2023年第49卷第4期无线电通信技术621 17 SHOJAEIFARD A,AMROUDI A N,MANSOORI A,et al.A Novel Genetically Optimized Convolutional Neural Net-work for Traffic Sign Recognition:A New Benchmark on Belgium and Chinese Traffic Sign DatasetsJ.Neural processing letters,2019,50(3):3019-3043.18 HUA
30、NG Z,ZHONG Z,SUN L,et al.Mask R-CNN with Pyramid Attention Network for Scene Text DetectionC 2019 IEEE Winter Conference on Applications of Comput-er Vision(WACV).Waikoloa:IEEE,2019:764-772.作者简介:黄豪杰南宁师范大学硕士研究生。主要研究方向:人工智能、深度学习。唐宗璐 北海市外国语实验学校教师。主要研究方向:大数据、进化算法。杨 敏合浦县实验学校教师。主要研究方向:进化算法。(通信作者)李航硕士,广西民族大学专任教师。主要研究方向:知识图谱、自然语言处理。