1、文章编号:1009-6094(2023)02-0474-07人员安全帽佩戴轻量化检测方法研究*张玉涛,张梦凡,史学强,陈晓坤,任瑶,刘锐(西安科技大学安全科学与工程学院,西安 710054)摘要:为有效减小安全帽检测算法的计算复杂度,并提高算法对于小目标的检测精度,提出一种基于 Pytorch 深度学习框架的轻量化安全帽检测模型。使用轻量化网络设计减小模型的计算量;设计可变形双向聚合网络提高模型对检测对象尺度和形状多样性的适应能力,优化对小目标的检测效果;通过网络收集的施工现场图像验证安全帽检测算法的检测效果。与已有安全帽检测算法相比,该方法检测精度有明显提高、模型参数量显著下降,并以 137
2、 帧/s 的速度运行。可变形双向聚合网络利用深层语义特征和浅层细节特征,并自适应调整感受野,可以适应不同形状和尺寸的检测对象,提高检测精度。关键词:安全工程;安全帽检测;轻量化设计;可变形双向聚合网络;深度学习中图分类号:X947文献标志码:ADOI:10.13637/j issn 1009-6094.2021.1635*收稿日期:20210913作者简介:张玉涛,教授,从事煤炭自燃和建筑火灾防控研究,ytzhang xust edu cn。基金项目:国家自然科学基金项目(51974235)0引言为保障施工人员的人身安全,防护工具的佩戴十分重要。安全帽作为一项基础的个人防护设备,能够在一定程度
3、上降低人体头部受坠落物及其他因素引起的伤害。但仍有大量伤亡事故是由于施工人员没有按照规定佩戴安全帽而导致的1。为更好地保障施工人员的安全,需要对施工人员防护工具的佩戴情况进行检查。传统的人工检查存在耗费人力、容易出现错误、无法实现全程监控等一系列问题,以至于频繁出现施工人员不按照规定佩戴安全帽的现象。智能图像处理技术在工业、医疗和自动驾驶等领域的应用能够显著提高自动化水平,减少人工成本。传统的计算机视觉算法通过提取颜色2、形状3 等低层级特征实现安全帽检测任务,在简单场景下能够取得不错的效果。然而,在实际场景中,传统算法受到光线、灰尘等环境因素的干扰,难以提取具有高辨别力的目标信息,导致检测效
4、果显著下降,进而造成一定的安全隐患4。近年来,基于深度学习的智能图像处理技术利用深度神经网络挖掘图像中的浅层次细节信息及深层次语义信息,能够在复杂的工业环境下取得比传统方法更为准确的结果。目前,深度学习技术已被广泛应用在目标检测5、图像分类6 及目标跟踪7 等领域,具有广阔的发展前景。众多学者使用深度学习技术进行安全帽检测,并对其展开大量研究8 12。2018 年,Fang 等9 将深度学习技术引入安全帽检测领域,并构建大规模数据集,此后深度学习技术在安全帽检测领域广泛应用。张明媛等10 在检测施工人员安全帽佩戴情况时,未考虑检测效率的问题,无法实现实时检测。考虑到现场检测的时效性需求,杨莉琼
5、等11 提出一种高效的安全帽检测算法,能够使用高性能计算机以20 帧/s 的速度运行,但在检测图像中的小目标时准确率较低。综上所述,国内外学者对安全帽检测进行了系列研究,也取得了很多有效成果,但在安全帽检测算法的轻量化设计和对小目标的检测效果方 面 有 待 进 一 步 研 究。本 文 提 出 一 种 基 于Pytorch 深度学习框架7的轻量化安全帽检测模型,使得模型易于在移动端或嵌入式设备上使用;通过构建的可变形双向聚合网络,实现浅层与深层特征的双向交互,并配合可变形卷积13自适应调节感受野,对施工现场中未配戴安全帽人员精准和快速地识别,所提出的方法对保证施工现场作业人员安全具有重要意义。1
6、安全帽检测算法1.1基本流程基于 Pytorch 深度学习框架构建安全帽检测模型实现流程如图 1 所示,主要包括 4 个步骤。1)数据划分。使用安全帽检测数据集构建训练数据集和测试数据集。训练数据集用于训练所设计的安全帽检测模型,测试数据集用于评估模型的性能。2)构建安全帽检测模型。使用卷积神经网络构建安全帽检测模型。该模型主要包括征提取网络、可变形双向聚合网络、基于锚框的区域提议网络5 和后处理操作 4 个部分,见图 2 所示。特征提取网络用于提取图像的高级语义特征的低级细节特征;可变形双向聚合网络对图像的低级特征和高级特征474第 23 卷第 2 期2023 年 2 月安全 与 环 境 学
7、 报Journal of Safety and EnvironmentVol 23No 2Feb,2023进行双向信息传递,以充分聚合细节信息和语义信息,并自适应调节感受野以适应不同尺度和形状的检测对象;基于锚框的区域提议网络在可变形双向聚合网络输出特征图的每个像素上预先设定多个不同比例和尺度的预设锚框,随后对预设锚框进行分类和回归修正。预测类别包括佩戴安全帽的头部,未佩戴安全帽的头部和背景;模型输出分类得分和预设锚框的回归值后,使用后处理操作去除检测冗余框,得到最终的检测结果。3)模型训练。使用训练数据集训练安全帽检测模型。4)模型测试。使用测试数据集评估安全帽检测模型的检测效果。图 2安全
8、帽检测算法整体框架Fig 2Overall framework of helmet detection algorithm1.2特征提取网络特征提取网络用于对形状为 H W 3 的输入图像进行特征提取(H 和 W 分别表示输入图像的长和宽,输入图像尺寸固定为 416 416 3)。加快模型的前向推理速度并减少模型参数对安全帽检测算法在移 动 端 设 备 的 应 用 具 有 重 要 意 义。使 用Howard 等6 提出的 MobileNetV3 作为特征提取网络,共包括 5 个特征提取阶段。定义特征提取网络第 i 个阶段的输出特征为 Fi(i=1,2,3,4,5),每阶段的下采样步长分别为 2
9、1,22,23,24,25,特征提取网络各阶段的输出尺寸见表 1。图 1安全帽检测算法实现流程Fig1Implementation process of helmet detection algorithm1.3可变形双向聚合网络可变形双向聚合网络用于对不同层级特征进行信息交互,以便在预测中更好地联合利用深层语义信息和浅层细节信息,其网络结构(图 3)主要包括深层向浅层信息传递路径、浅层向深层信息传递路径和可变形卷积 3 个部分。使用特征提取网络后 3个阶段输出的多层级特征 F3、F4、F5,每层级特征之间的下采样系数为 2。由深层到浅层的信息传递计算过程为表 1特征提取网络各阶段输出尺寸Ta
10、ble 1Output size of each stage of featureextraction network输入尺寸阶段输出尺寸41623120821620821621042241042243522405224042621122621125132160图 3可变形双向聚合网络框图Fig 3Diagram of the deformable bi-directionaggregation network5742023 年 2 月张玉涛,等:人员安全帽佩戴轻量化检测方法研究Feb,2023M5=F5M4=U(M5)F4M3=U(M4)F3(1)式中M3、M4、M5为前向传递过程的中间特征
11、;为像素级的相加操作;U 为最近邻插值上采样操作。中间特征 M3、M4、M5与输入特征 F3、F4、F5具有相同的空间分辨率。在前向传递过程中,为减少上采样的混叠效应,对中间特征 M3、M4、M5分别使用深度可分离卷积6,得到前向传递过程的输出特征 Pi为Pi=Ci(Mi)i=3,4,5(2)式中Ci为卷积核大小为 3、步长为 1 的深度可分离卷积。由深层到浅层的信息传递计算过程为N3=F3 P3N4=D4(N3)F4 P4N5=D5(N4)F5 P5(3)式中Di为下采样操作;N3、N4、N5为反向路径的输出特征。对 3 个尺度的输出特征 N3、N4、N5分别使用可变形卷积13 以提高模型对
12、形变的建模能力,获得可变形双向聚合网络的输出特征 Ei为Ei=Bi(Ni)i=3,4,5(4)式中Bi为卷积核大小为 3、步长为 1 的可变形卷积。1.4基于锚框的区域提议网络受区域提议网络的启发,采用锚边界框机制5,在可变形双向聚合网络输出特征图的每个空间位置上预先设定不同比例和尺寸的预设锚框。由于不同层级特征的感受野不同,浅层特征适合检测较小的物体,而深层特征适合检测较大的物体14。因此,在特征图 E3、E4和 E5的每个空间位置设置 3 个锚框,其长 宽分别为 10 13、16 30、33 23、30 61、62 45、59 119、116 90、156 198、373 326。基于锚框
13、的区域提议网络结构如图 4 所示,多层级的聚合特征 E3、E4和 E5分别由 2 层深度可分离卷积处理。使用分类分支和回归分支对预设锚框进行分类和回归修正。分类分支输出每个预设锚框的类别概率,回归分支预测预设锚框与真实边界框的偏移量,从而对预设锚框进一步回归,得到最终的预测框。分类分支和回归分支都由 1 层卷积核大小为1 的卷积组成。对于每个层级特征,得到 M N 3(2+1)的分类结果和 M N 3 4 的预设锚框修正值,M 和 N 分别为特征图的长和宽。类别包括佩戴安全帽的头部,未佩戴安全帽的头部和背景。检测框的计算式为 0=Tx AxAw,1=Ty AyAh,2=lnTwAw,3=lnT
14、hAh(5)式中(Ax,Ay)为区域候选框的中心点坐标,(Aw,Ah)为区域候选框的宽和高,(Tx,Ty)为真值框的中心点坐标,(Tw,Th)为真值框的宽、高,(0,1)为预测目标框的中心点坐标,(2,3)为预测目标框的宽、高的归一化距离。1.5后处理操作由于预设锚框的数量通常远远多于实际场景中的目标数量,因此图像中的每一个目标会具有多个相应的预测框。为此,使用后处理操作15 去除冗余的检测框,为每个目标保留检测效果最好的一个检测框,见图 5。2案例分析2.1数据集使用通过网络收集的安全帽检测数据集(SafetyHelmet Wearing Dataset,SHWD)进行模型训练和测试,标注佩
15、戴安全帽的头部和未配戴安全帽的头部2 种类别。该数据集包括 8 000 张图像、9 608 个佩戴安全帽的目标框和 117 523 个未佩戴安全帽的目图 4基于锚框的区域提议网络框图Fig 4Diagram of the region proposal networkbased on anchor boxes图 5后处理操作效果示意Fig 5Illustrations of the effects with thepost-processing operation674Vol 23No 2安全 与 环 境 学 报第 23 卷第 2 期标框。从该数据集中随机选取 6 000 张图像作为训练集,再
16、将剩余的 2 000 张图像作为测试集,数据集中的部分示例见图 6。2.2评价指标采用准确率 P、召回率 R、平均精确率和检测速率作为评价指标,平均精确率为多个类别准确率的平均值,检测速率即模型在 1 s 内检测的图像数。P和 R 可表示为图 7测试数据集中部分图像的检测效果Fig 7Detection performance of some images in testing datasetP=RTRT+RF(6)R=RTRT+RN(7)式中RT、RF和 RN分别为检测结果为正值的正样本数量、检测结果为正值的负样本数量和检测结果为负值的正样本数量。2.3实施细节试验平台为使用 Intel-Xeon(R)4214 CPU(2.2GHz)、64 GB 内存和 4 张显存为 11 GB 的 NVIDIAGeForce GTX2080Ti GPU 的计算机。2.3.1训练阶段输入图像的尺寸调整为 416 416。损失函数图 6SHWD 数据集中部分图像Fig 6Illustrations of some images in SHWD dataset包括分类损失函数 Lc和回归损失函数 Lr。