收藏 分享(赏)

基于改进YOLOX的车辆检测技术研究_李卓.pdf

上传人:哎呦****中 文档编号:2253046 上传时间:2023-05-04 格式:PDF 页数:4 大小:1.72MB
下载 相关 举报
基于改进YOLOX的车辆检测技术研究_李卓.pdf_第1页
第1页 / 共4页
基于改进YOLOX的车辆检测技术研究_李卓.pdf_第2页
第2页 / 共4页
基于改进YOLOX的车辆检测技术研究_李卓.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 155信息:技术与应用信息记录材料 2022年12月 第23卷第12期 0 引言随着社会经济的快速发展,运输行业也因此得到大力发展,人们对出行的需求日益增加。现如今,道路上会出现各种类型的车辆,使道路环境愈加复杂,截至2022年,全国汽车保有量已达 3.07 亿辆,这对道路行车安全是极大的挑战,而车辆检测在自动驾驶1和交通安全2领域中已广泛使用,智能车辆的目标检测技术能大大弥补交通参与者因为疲劳或走神而引发的交通事故,对车辆的识别检测也是驾驶风险评估的重要组成部分。相较于传统方式的目标检测,目前主流的目标检测算法大致上可以分为双阶段(two-stage)检测算法和单阶段(one-stage)

2、检测算法,双阶段检测算法中具有代表性的有 Ross Girshick3提出的 R-CNN 算法和 Ren4提出的 Fast-RCNN 算法,它们第一阶段运用算法定位出可能含有目标的感兴趣区域,第二阶段则是进行深层特征提取,然后根据这些特征点去定位到检测的目标。而一阶段检测算法的代表作是 Redmon 等5提出的 YOLOv3 算法,它是目前使用非常广泛的目标检测算法,YOLOv3 算法以固定数量的锚框代替二阶段算法中无定量且大量冗余的区域提案,大幅提升了检测效率,比 Fast R-CNN 快 100 倍,但因为特征提取位置不够全面,所以检测容易发生遗漏,精度较二阶段算法低。国内外学者在提高检测

3、精度、优化训练网络上已经做了大量研究。刘学平等6结合 K-means 聚类并在 YOLOv3网络中加入 SENet 结构来增加网络的感受野;为了提高检测的实时性,徐丽等7基于 YOLOv4 算法模型,将主干特征提取网络更改为灵活性强且易于实现的 MobileNet V2,并用深度可分离卷积替换掉原来加强特征提取网络里面的普通卷积;为了避免传统锚框对于检测性能所产生的负面影响,Fu 等8提出了一种基于特征平衡和细化网络的小目标检测方法,使用无锚框机制进行语义增强使检测效果达到最佳;为了缓解正样本和负样本的数量不均衡问题,并且解决数据集小且少的问题,Yu 等9提出了一种Scale Match 方法

4、,对预训练数据集进行尺度变换,实现了额外数据的增强式扩充。综上,权衡实时性与准确性,本文决定以 YOLO 系列中识别效率高的 YOLOX-S 为基础,对其网络结构进行优化改进,通过加入注意力机制 CBAM 以实现网络自适应,减少计算资源的浪费,并且使用Gamma变换进行数据集增强,避免过拟合,从而提高模型的泛化能力,进一步提高该算法的检测性能。2 基于CBAM和数据集增强的YOLOX网络模型2.1 YOLOX 网络结构YOLOX 使 用 了 Anchor-free 和 标 签 分 配 策 略SimOTA10。在输入端中,YOLOX 对输入到网络的图片进行 Mosaic 和 Mixup 数据增强

5、,输入图像的 3 个通道在输入后,继续使用 Focus 网络将图像的长和宽的信息集中到 12 个通道信息中去,backbone 主干网络部分采用了CSPDarknet-53 作为提取网络,然后运用卷积和 silu 激活函数,通过不同池化核大小的最大池化进行特征提取。在 Neck 结构中,采用了 FPN 结构进行特征融合,它是对主干网络中提取到的特征点进行强化,在此 YOLOX 沿用了 YOLOv3 中经典的特征金字塔网络结构。它将从主干系统中收集到的有效特征层,先进行对深层特征层的取样并与浅层特征层结合,之后再对与浅层特征层混合后的数据进行下取样并与深层特征层中的有效特征结合。Yolo Hea

6、d 是目标检测的分类器和回归器11,预测时先进行分类,然后再进行特征点对比回归。首先经过卷积运算和激活函数找到与特征点最接近的物体的种类来进行分类,然后进行相同的卷积激活操作查找到与这个特征点相匹配的对象。本文 YOLOX 基于 YOLOv3 的整体架构,在此部分将 Head 进行了 decouple,这种去耦合方式能够更好地让网络学习到类别和对应的坐标回归。综上,YOLOX 的网络结构如图 1 所示。基于改进 YOLOX 的车辆检测技术研究李 卓(山东科技大学交通学院 山东 青岛 266400)【摘要】目前物流及运输行业大力发展,道路环境愈发复杂,对道路车辆的精准检测一直是智能交通系统中亟需

7、完成的任务。本文结合迁移学习,在目标检测算法 YOLOX 的基础上,对网络进行预训练,并选取青岛部分道路场景自制数据集,在网络模型中添加双通道注意力机制 CBAM,加强该算法的特征提取能力;同时为了优化傍晚较暗的数据集,进行 Gamma 变换强化数据集来避免数据集的信息丢失。最后进行实验验证,发现改进的 YOLOX 算法相较之前的算法有明显提高,相比于原 YOLOX 算法,在精确率上提高了 1.63%,平均精度上提高了 1.64%,检测识别能力得到提升。【关键词】YOLOX 算法;注意力机制;Gamma 变换;交通安全【中图分类号】TP39 【文献标识码】A 【文章编号】1009-5624(2

8、022)12-0155-04DOI:10.16009/13-1295/tq.2022.12.067156 信息:技术与应用信息记录材料 2022年12月 第23卷第12期 图 1 YOLOX 网络结构2.2 CBAM 注意力机制在人眼视觉中,人类会选择性地关注视觉区域内的特定部分,然后集中关注它,同时忽略其他可见的信息,这样可以避免造成视觉资源的浪费;注意力机制的核心重点就是让网络关注到它更需要关注的地方,使用注意力机制可以让卷积神经网络去自适应的关注重要的物体,它是实现网络自适应注意的一个方式。CBAM 是注意力机制的一种,是通道注意力机制和空间注意力机制的结合,比 SENet 单独的注意力

9、机制对网络的优化更好。CBAM 对输入进来的特征层进行通道注意力模块和空间注意力模块的运算后,分别得到通道和空间的注意力权重,然后将权重与原始特征图相乘,从而对特征进行自适应调整,更关注对目标物体的识别,使其关注重要特征,抑制不必要特征。其实现示意图如图 2所示。图 2 CBAM 注意力机制示意图由图 2 可知,图像的前半部分为通道注意力机制,通道注意力机制的实现可以分为两个部分,它会对输入进来的单个特征层,分别进行平均池化和最大池化,通过全连接层处理经过平均池化和最大池化的特征层,接着对得到的两个结果进行相加,再取一次 sigmoid 函数后,获得输入特征层的通道的权值,最后再将这个权值乘上

10、原输入特征层。综上,通道注意力机制公式如下式所示:)()()()()(0101ccavgcavgFWWFWWFMaxPoolMLPFAvgPoolMLPFM+=+=(1)式中,为 sigmoid 函数,MLP为人工神经网络,MLP的权重由0W和1W共享;图像的后半部分为空间注意力机制,它会对输入进来的特征层,在每一个特征点的通道上取最大值和平均值,之后将这两个结果进行一次堆叠,利用一次通道数为 1 的卷积调整通道数,然后取一次激活函数,此时获得了输入特征层的特征点的权值,最后同样是将这个权值乘上原输入特征层。综上,通道注意力机制公式如下式所示:);()();()(max7777cssavgFF

11、fFMaxPoolFAvgPoolfFM=(2)式中,为sigmoid函数,77f为77大小的卷积核。本文在主干网络 Darknet 中加入注意力机制,在提取出来的三个有效特征层上增加了注意力机制,同时在特征金字塔中每个上采样和下采样之后使用注意力机制。在之后的实验中将未添加注意力机制之前和添加注意力机制之后的算法效果进行对比实验,从而证明本文注意力机制对车辆检测方法的有效性。2.3 数据集增强Gamma 变换数据集的拍摄时间为中午 12 点到傍晚 6 点,其光照强度由 30 000 lux 变化到 500 lux,亮度变化明显,由于傍晚的车辆亮度不足的原因,处于图像暗部时车辆轮廓模糊,若将未

12、处理的数据集直接输入,目标检测的难度会大大增加,于是对数据集进行增强。Gamma 变换又称幂律变换12,是图像数据预处理的一种常用方法,尤其适用于目标处于过度曝光和曝光不足时,通过拓展图像的灰度值,调整亮度及对比度,对图像进行矫正。在此主要是用来提升暗部细节,它的主要原理是对输入图像灰度值进行非线性操作,让输出图像灰度值与输入图像灰度值呈指数关系:Vout=AV in (3)式中outV为输出的灰度值,inV为输入的灰度值,为 Gamma,当=1 时,此变换是线性的,通过线性方式改变原图,当不为 1 时,输出图像会通过拉伸暗区域的灰度或压缩亮区域的灰度,来使处于阴影或过度曝光区域内的物体变得清

13、晰。经过 Gamma 转化的前后图像效果对比如图 3 所示。157信息:技术与应用信息记录材料 2022年12月 第23卷第12期 图 3 前后效果对比图3 实验过程与分析3.1 实验平台及参数配置本次实验编程语言选择使用 python3.7。实验所用的计算机硬件配置:CPU 为 AMD Ryzen9 5900HX with Radeon Graphics 3.30 GHz,内存为双通道 16 GB,显卡为 RTX3060,显存为 8G,操作系统为 Windows11 家庭版,训练的 batch size 设置为 16,有 300 个 epoch,initial lr 为 0.01。进行数据集

14、采集的摄像头默认分辨率为640*480,输入训练网络时图片 resize 为 640*640。3.2 实验数据集与评价指标本次目标检测实验的原始数据集采用自建数据集,测试时间为白天和傍晚,光照强度在每次实验前使用照度计进行测试,数据集获取地点是青岛市黄岛区,是以驾驶员为第一视角,在不同时间段不同光照强度下进行的,数据集中含有照片 1 887 张,其中设置了训练集 1 287 张,验证集 300 张,测试集 300 张,本次实验使用 Labelimg 对数据集进行标注。本次实验会采用准确率(P),召回率(R)和平均精度(AP)等指标来衡量模型性能。在网络进行训练的过程中,对数据集进行检测验证时,

15、通常会产生这 4类检测结果:TP:预测为正例(P),事实上是反例(N)的数量(预测错误);TN:预测为反例(N),事实上是反例(N)的数量(预测正确);FP:预测为正例(P),事实上是正例(P)的数量(预测正确);FN:预测为反例(N),事实上是正例(P)的数量(预测错误)。PPPFTTP+=(4)NPPFTTR+=(5)式中,P、R分别代表准确率与召回率,以准确率为纵坐标,召回率为横坐标,得到准确率召回率曲线,这条曲线和坐标轴围成的面积就是目标检测的平均精度(AP)。实验中使用迁移学习进行模型训练,用 Labelimg 进行标注,下图为使用 Labelimg 软件进行数据标注时的界面,车辆被

16、标注为 car。Labelimg 界面图如图 4 所示。图 4 Labelimg 界面图3.3 实验结果利用改进的 YOLOX 算法检验自建数据集的识别效果,通过训练自建车辆的数据集,获得最终车辆检测模型权重。改进后的 YOLOX 检测网络对车辆的检测精确率达到 93.11%,召回率达到 86.27%,模型的平均精度达到91.98%,其效果图如图 5、图 6 所示。图 5 模型的精确率和召回率图 6 模型的平均精度为了证实结合 CBAM 和数据集增强的检测方法的有效性,本次实验还对比了不同的深度学习网络,具体如表 1158 信息:技术与应用信息记录材料 2022年12月 第23卷第12期 所示。可以看出,在对同一种数据集进行深度学习时,改进的算法相较 Faster R-CNN 算法在 Precision 值、Recall值和 AP 值上都有较大的提升;与直接使用 YOLOX 检测网络模型进行检测对比,在精确率(Precision)提高了1.63%,平均精度(AP)提高了 1.64%;对比之前经常使用的二阶段算法 YOLOv5,在 Precision 值、Recall 值和 AP 值上均

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2