1、第 50 卷 第 2 期2 0 2 3 年 2 月Vol.50,No.2Feb.2 0 2 3湖 南 大 学 学 报(自 然 科 学 版)Journal of Hunan University(Natural Sciences)基于改进YOLOv5的露天矿山目标检测方法秦晓辉 1,2,黄启东 1,常灯祥 1,刘建 3,胡满江 1,2,徐彪 1,2,谢国涛 1,2(1.湖南大学 机械与运载工程学院,湖南 长沙 410082;2.湖南大学无锡智能控制研究院,江苏 无锡 214072;3.潍柴智能科技有限公司,山东 潍坊 261000)摘 要:目前实地部署的商用采矿无人系统大都采用激光雷达和毫米波雷
2、达作为感知传感器,难以准确识别障碍物的类型,尤其是较远处障碍物,不利于正确决策,从而影响无人作业的安全和整体效率.针对这些问题,本文采集了不同场景的矿山数据,并提出了一种基于YOLOv5S的图像目标检测算法.该算法主要进行了三方面改进:首先,使用不同的填充策略和空间注意模块优化采样方法,提高了模型的采样能力;其次,解耦Head预测分支,让每个分支专注自己的任务;最后,优化损失函数,耦合定位和分类,实现定位和分类任务的联合优化.试验表明,三种方法在保持实时性的前提下,可将YOLOv5S的平均精度(Average Precesion,AP)从49.9%提高至58.9%,实现白天、夜间场景下不同尺度
3、的障碍物识别.关键词:露天矿山;自动驾驶;目标检测;深度学习中图分类号:U461 文献标志码:AObject Detection Method in Open-pit Mine Based on Improved YOLOv5QIN Xiaohui1,2,HUANG Qidong1,CHANG Dengxiang1,LIU Jian3,HU Manjiang1,2,XU Biao1,2,XIE Guotao1,2(1.College of Mechanical and Vehicle Engineering,Hunan University,Changsha 410082,China;2.Wu
4、xi Intelligent Control Research Institute(WICRI)of Hunan University,Wuxi 214072,China;3.Weichai Intelligent Technology LTD,Weifang 261000,China)Abstract:Most of the commercially deployed unmanned mining systems use LiDAR and radar as sensors,which is difficult to identify object types,especially for
5、 distant objects.This affects the subsequent correct decision-making,as well as the safety and overall efficiency of the unmanned system.To solve these problems,this paper collects mine data from different scenes and proposes an image object detection algorithm based on YOLOv5S.The algorithm mainly
6、improves in the following three aspects.Firstly,the sampling ability of the model is optimized by 收稿日期:2022-01-05基金项目:国家自然科学基金资助项目(52172384,52102456),National Natural Science Foundation of China(52172384,52102456);潍柴-湖大重大校企合作项目(WCDL-GH-2020-0206),Major School-enterprise Cooperation between Weichai H
7、olding Group Co.,Ltd.and Hunan University(WCDL-GH-2020-0206);湖南省自然科学基金资助项目(2021JJ40095),Natural Science Foundation of Hunan Province(2021JJ40095);汽车车身先进设计制造国家重点实验室自主课题重点项目资助(61775006),State Key Laboratory of Advanced Design and Manufacturing for Vehicle Body(61775006)作者简介:秦晓辉(1988),男,湖南张家界人,湖南大学副研究员
8、,工学博士 通信联系人,E-mail:文章编号:1674-2974(2023)02-0023-08DOI:10.16339/ki.hdxbzkb.2023261湖南大学学报(自然科学版)2023 年using different padding strategies and spatial attention modules.Secondly,it decouples the head prediction branches and makes each branch focus on its own task.Finally,the loss function is optimized to
9、 couple localization and classi-fication so as to realize the joint optimization of localization and classification tasks.Experiments show that the above three methods can improve the AP of YOLOv5S from 49.9%to 58.9%with real-time performance and realize object recognition in daytime and night scene
10、s with different scales.Key words:open-pit mine;autonomous driving;object detection;deep learning矿产资源是工业发展的基础,而采矿业目前面临着成本高、效率低和风险大的问题.2019年中国国际矿业大会在 全球矿业发展报告2019 中指出,科技创新正在引领传统矿业转型升级,加速向绿色、安全、智能、高效方向发展1.除了国内正在加速发展智慧矿山,国外也在稳步发展.2021年起,世界第二大采矿业集团力拓公司计划在皮尔巴拉的Koodaideri铁矿山耗资26亿美元打造第一个智慧矿山2.在智慧矿山技术的组成中,自
11、动驾驶是不可或缺的部分,但是目前针对智慧矿山自动驾驶的研究仍不成熟.自动驾驶感知传感器主要包括毫米波雷达、激光雷达和相机.毫米波雷达分辨率低,易引发目标漏检.激光雷达在较远处点云稀疏,无法有效识别障碍物并判断类型,同时由于激光点云无法穿透扬尘,在扬尘环境下易产生误识别.而图像具有分辨率高和像素信息丰富的特点,可兼顾远处目标和扬尘的识别.同时,随着GPU硬件的飞速发展,基于深度学习视觉目标检测已经得到了广泛应用3-4.基于深度学习的方法,其检测模型需要大量的应用场景数据.但智慧矿山提出以来,露天矿山方面的目标检测数据集依然比较少,针对这方面研究更是不多.齐凡5在露天矿山中采集了916张图像,在这
12、些图像中矿卡目标共有786个,行人目标共有263个,此数据集样本较少,训练的模型泛化能力不足.齐 凡5基 于 Mask R-CNN 模 型 修 改 主 干 网 络ResNet50的C5层,将C5层的33卷积全部替换为空洞率为2的空洞卷积.此方法提高了该层卷积的感受野,且矿山中的目标大多数为大中目标,因此利用此 方 法 有 效 提 高 了 检 测 精 度.Improved Tiny-Yolov36在主干网络的部分层中加入类似于ResNet的Bottleneck和残差结构,以提高模型的学习能力,减少特征在传递时的丢失,在增加很少检测时间下提高模型的检测精度.虽然以上学者在精度上有了一定的提升,但上
13、述方法最快速度只有 23FPS,在速度上无法满足自动驾驶30FPS的实时性需求.目前,基于深度学习的实时目标检测已经有了很大的发展.在实际应用中使用较多的是YOLOv37、YOLOv48和YOLOv59,以上都是先通过主干网络直接提取不同层级高级特征,然后使用多级融合网络将位置信息和高级语义信息充分融合,最后利用回归的方法实现目标检测.但是,YOLO系列的模型对数据集中的小目标的检出率与大中型目标相差较大.因此,有很多学者针对该问题提出了多种解决办法,大致可以分为三种.第一种方法是从模型的检测尺度出发,模型中上层特征包含了许多细节信息,所以该方法通过额外增加浅层检测尺度达到提高小目标检测精度的
14、目的10-12.第二种方法是增加网络的感受野,一般使用空洞卷积来实现13-14.第三种方法是通过注意力机制引导网络关注小目标的信息15-17.然而这些改进方法忽略了下采样对模型检测精度的影响.近年来一些工作对卷积网络中的下采样进行了优化,比如文献 18 认为池化下采样和步长为2的卷积下采样会减弱卷积的平移不变性并且会产生严重的锯齿,不符合 Nyquist-Shannon 采样定理.因此提出先使用步长为1,卷积核大小为33的卷积来保证平移不变性,再使用固定的模糊核实现抗锯齿.论文最后发现采样该方法有更好的特征提取能力,且对噪声和翻转等有较好的适应.TResNet19也采用这种方法,但其在具体实现
15、上采用PyTorch预编译的方法加速GPU计算,显著降低了计算成本.虽然,这些方法可以提高网络的特征提取能力,但是在矿山目标检测上并不能很好地适应,而且他们都没考虑到特征图每个点的利用率.24第 2 期秦晓辉等:基于改进YOLOv5的露天矿山目标检测方法同时,这些学者在模型训练中的分类损失函数使用交叉熵(Cross-Entropy,CE)损失或二值交叉熵(Binary Cross-Entropy,BCE),定位损失函数采用smooth L1 范数损失或 IoU(Intersection-over-Union)损失20-21.采用解耦方式,分别对两个任务进行优化,但目标检测的最终结果由分类和定位
16、共同决定.因此,本文以 YOLOv5S为基础网络架构,改进下采样,解耦Head和优化损失函数,以得到高精度的实时检测模型.本文主要贡献如下:在露天矿山场景下采集并标注了包含乘用车辆、工程车辆、矿区运载卡车和行人的露天矿山自动驾驶数据集.分析现有下采样方式对特征利用不平衡的原因,并使用不同的填充方式改进下采样.此外,引入attention机制使得两种特征更好地融合.将预测Head解耦成三个独立的分支,分别预测box、cls和obj.探究当前损失函数的弊端并加以改进,提出使用定位与分类相互耦合的方式进行损失计算.1 露天矿山目标检测算法设计1.1 模型结构实际工程应用中网络模型所部署的计算设备算力较低,为权衡速度和精度,本文基于YOLOv5的架构,根据现有目标检测算法的缺陷以及露天矿山环境的特点,提出了如图1所示的目标检测算法框架.该框架共由四个部分组成,分别是主干网络(Backbone)、瓶颈网络(Neck)、头部网络(Head)和训练推理.1)为解决YOLOv5及其他算法中的下采样对特征利用不平衡的问题,优化主干网络的卷积下采样结构,避免特征丢失,同时实现特征的平衡利用.因此本文使用模