融合Transformer...YOLOv5s交通标志检测

资源描述

1、第 36 卷第 2 期2023 年 2 月传感技术学报CHINESE JOUNAL OF SENSOS AND ACTUATOSVol.36No.2Feb 2023项目来源:贵州省科学技术基金资助项目(黔科合基础 2016 1054);贵州省联合资金资助项目(黔科合 LH 字 2017 7226 号);贵州大学 2017 年度学术新苗培养及创新探索专项项目(黔科合平台人才 2017 5788)收稿日期:20220411修改日期:20220526Fusion Transformer and Improved PANet forYOLOv5s Traffic Sign Detectio

2、n*ZHANG Qian1，LIU Ziyan1，2，3*，CHEN Yunlei1，WU Yingyu1，ZHENG Xuhui1(1College of Big Data and Information Engineering，Guizhou University，Guiyang Guizhou 550025，China;2State Key Laboratory of Public Big Data，Guizhou University，Guiyang Guizhou 550025，China;3Institute of Computing Technology，Chinese Acad

3、emy of Sciences，Beijing 100190，China)Abstract:Aiming at issues of low speed of traffic sign detection and extreme imbalance of target size and category，a YOLOv5s trafficsign detection algorithm of fused Transformer and improved PANet network is proposed Firstly，without increasing model complexity，th

4、eend of backbone network is fused with Transformer to improve network feature extraction capability Secondly，the small size of targetscale in traffic sign datasets causes poor detection effects of the scale detection layers with a scale of 32 times larger，thus correlationnetwork layers is not used，a

5、nd K-means algorithm is adopted to yield appropriate prediction candidate frames Then the loss functions isimproved to address extreme imbalance problems between positive and negative samples Finally，the proposed algorithm is applied onJetson AGX Xavier platform for validation Experimental results d

6、emonstrate that the proposed algorithm achieves better performance，the detection precision and recall rate improve 22%and 07%，respectively，and the number of model parameters and computationalcomplexity reduce 258%and 101%respectively in comparison with the original network The detection speed of 76

7、FPS on Xaviermeets the requirements for real-time traffic sign detection，which is easily deployed in real scenariosKey words:traffic sign detection;Jetson AGX Xavier;Transformer;PANet;YOLOv5sEEACC:7230doi:103969/jissn10041699202302010融合 Transformer 和改进 PANet 的YOLOv5s 交通标志检测*张倩1，刘紫燕1，2，3*，陈运雷1，吴应雨1，郑

8、旭晖1(1贵州大学大数据与信息工程学院，贵州贵阳 550025;2贵州大学公共大数据国家重点实验室，贵州贵阳 550025;3中国科学院计算机技术研究所，北京 100190)摘要:针对交通标志检测速度慢和目标大小与类别极度不平衡等问题，提出一种融合 Transformer 和改进 PANet 网络的YOLOv5s 交通标志检测算法。首先在不增加模型复杂度的前提下，将主干网络末端与 Transformer 融合以提高网络特征提取能力;其次由于所采用交通标志数据集的目标尺度太小，导致网络 32 倍大尺度检测层检测效果不佳，故不采用相关网络层，同时采用 K-means 算法得出适合的预测候选框;

9、然后改进损失函数以解决正负样本极度不平衡问题。最后将所提出的改进算法在 Jetson AGX Xavier 平台上部署验证。实验结果表明，所提算法检测性能更佳，其准确率和召回率在原网络的基础上分别提高了 22%和 07%，模型参数量和计算复杂度分别减少了 258%和 101%。在 Xavier 上的检测速度达到 76FPS，满足实时交通标志检测的要求且易于在实际场景部署。关键词:交通标志检测;Jetson AGX Xavier;Transformer;PANet;YOLOv5s中图分类号:TP3914文献标识码:A文章编号:10041699(2023)02023210交通标志的检测和识别作为自

10、动驾驶领域的重要组成部分，可以实时提供道路信息和交通状态以帮助驾驶员更加安全、有效地驾驶1。然而，实际场景下的交通标志存在雨、雾、光照和相机的差异等第 2 期张倩，刘紫燕等:融合 Transformer 和改进 PANet 的 YOLOv5s 交通标志检测变化因素2，增加行驶过程中的车辆对实时道路交通标志检测的难度。因此，交通标志检测的实时性和准确性仍然是一项挑战3。交通标志检测的主要任务包括确定交通标志所在图像区域和该区域内交通标志所属类别，即特征提取和分类，通过找到图像中感兴趣的交通标志区域，基于颜色、形状或像素点等信息完成特征提取，并根据提取到的特征判断目标所属类别。传统的交通标志检测通

11、过手工设计特征来检测感兴趣区域。文献 4 通过从粗到细的滑动窗口方式提取方向梯度直方图(Histogram of Oriented Gra-dient，HOG)特征以实现小尺寸交通标志检测。文献 5将输入图像转换成颜色概率模型后提取特征。文献 6 利用 DPM(Deformable Parts Model)充分提取目标颜色和形状特征。由于这类方法使用的特征提取和分类算法较为复杂，导致检测速度慢且鲁棒性差，不满足实际应用场景的需求。为了突破传统方法的局限性，基于深度学习的交通标志检测逐渐成为主流，其利用卷积神经网络对大量图像进行训练，自主提取有用和泛化的特征。文献 7通过削减特征金字塔结构来降低

12、网络深度，从而解决小尺寸交通标志被淹没的问题，但硬件要求较高，且检测类别较为单一。文献 8将提取到交通标志的颜色、形状及纹理特征融合，加强了小尺寸交通标志的检测和识别效果，但模型较大，使得检测速度相对较慢。文献 9 根据 BiFPN10 的特征融合方式，在 PANet(Path Aggregation Network)网络上增加自顶向上的多尺度特征融合，更好地平衡不同尺度的特征信息，但同样也会造成模型参数量增大，不符合自动驾驶的实时性要求。目前，具有代表性的目标检测方法有两阶段Faster-CNN11、Mask-CNN12 等模型，单阶段YouOnlyLookOnce(YOLO)13、Sing

13、leShotMultiBox Detector(SDD)14 等模型。由于两阶段方法生成一系列的候选区域后，再通过卷积神经网络对目标物体分类和定位，虽然检测精度较高，但检测速度不满足自动驾驶的实时性需求。针对上述问题，单阶段方法直接回归物体的类别概率和位置坐标，在保证一定准确度的前提下，速度得到极大提升。故本文以 YOLOv5s 为基础，提出了一种融合Transformer 和改进 PANet 网络的 YOLOv5s 交通标志检测。首先对输入到网络中的图像采用 Mosaic数据增强等预处理，并输入到融合 Transformer 的主干网络中提取网络感兴趣的特征后，在改进后的Neck 网络中融合

14、提取到的多尺度特征信息，并采用Varifocal Loss 反向传播更新各个参数，不断降低训练损失值以提高检测精度。最后将改进后的网络进行 TensorT 优化推理后，在 NVIDIA Jetson AGXXavier 平台部署，对实际场景下的交通标志进行检测验证。1YOLOv5s 算法2016 年，edmon 等13 提出了 YOLO 算法，将输入的图像通过卷积神经网络提取特征，直接回归每个网格内的边框坐标和类别置信度，速度相对提升了很多。目前已经发展到第五代 YOLOv5 版本，该版本移植了近几年计算机视觉中比较优秀的算法，在检测效果大幅度提升的情况下，模型也越来越轻量化，更易于移植到 W

15、indows 或嵌入式设备等平台，利于产品落地。YOLOv5 通过不同的模型深度和宽度得到不同数量的 Bottleneck 和卷积内核，从而将YOLOv5 分为 s、m、l 和 x 四种模型，可根据实际的应用场景选择合适的模型。为了便于交通标志目标检测在车载平台上实现快速部署，本文选择模型最小的 YOLOv5s 作为基础框架。11YOLOv5s 网络结构YOLOv5s 算法在 YOLOv4 的基础上重新构建网络模型，在准确率与 YOLOv4 相当的情况下，大大减少模型参数量和计算复杂度以提高检测速度，满足实时交通标志检测的需求。如图 1 所示，其网络结构主要分为:输入端、Backbone、Ne

16、ck 和 Prediction四个部分。图 1YOLOv5s 网络结构如图 2 所示，在输入端将输入的图像尺寸缩至640640 大小后，采用 Mosaic 数据增强将输入的四张图像按照随机缩放、色域变化、裁剪和排布等方式，将其分别放置在矩形框的左上角、右上角、左下角和右下角位置，最后拼接成一张图像，通过这样的方式把合成后的图像输入网络中训练，相当于同时输入四张图像进行学习，故极大丰富了小尺度交通332传感技术学报chinatransducersseueducn第 36 卷标志的数量，通过对不同数据集计算出对应的初始锚框后，利用自适应图片缩放计算出最小的黑边来填充缩放后的图像，减少黑边信息的冗余，作为Backbone 主干网络的输入。图 2Mosaic 数据增强如图 3 所示，在 Backbone 主干网络中采用Focus 模块对输入的 GB 图像进行切片操作，从而将得到四个尺度大小一致的特征图在通道维度上拼接，使通道数扩充为原来的 4 倍，即拼接起来的特征图相对输入的 GB 三通道特征图变成了 12 个特征通道，最后经过卷积操作，最终在没有信息丢失的情况下得到类似于二倍下采样的特征图。

展开阅读全文

融合Transformer...YOLOv5s交通标志检测_张倩.pdf