基于改进YOLOv5的口罩佩戴检测算法.pdf-资源下载-蜗牛文库-知识共享服务平台

基于改进YOLOv5的口罩佩戴检测算法.pdf

1、第 49卷第 8期2023年 8月Computer Engineering 计算机工程基于改进 YOLOv5的口罩佩戴检测算法张欣怡，张飞，郝斌，高鹭，任晓颖（内蒙古科技大学信息工程学院，内蒙古包头 014000）摘要：在公共场合密集人群场景下，由于目标遮挡导致的信息缺失及检测目标较小、分辨率低问题，使得人脸佩戴口罩检测算法的检测效果较差。为提高模型的检测精度和速度，减少硬件占用资源，提出一种基于改进YOLOv5s的口罩佩戴检测算法。将标准卷积和深度可分离卷积相结合替换传统卷积，并进行通道混洗的鬼影混洗卷积，以在保证精度的前提下提升网络速度。将最近邻法上采样替换为轻量级通用上采样算子，充

2、分利用特征语义信息，在改进的 YOLOv5s模型 Neck 层末端添加自适应空间特征融合，可以对不同尺度的特征进行更好的融合，提高网络检测精度，并通过自适应图片采样，缓解数据不均衡的问题，运用马赛克数据增强对小目标进行充分利用。实验结果表明，该算法在 AIZOO 数据集上的 mAP 值达到了 93%，比 YOLOv5 原始模型提升了 2 个百分点，对于佩戴口罩的人脸检测精度达到了 97.7%，优于同等情况下 YOLO 系列、SSD、RetinaFace 的检测效果，同时在GPU上的运行推理速度提升了 16.7个百分点，且模型权重文件的内存仅为 23.5 MB，适用于实时口罩佩戴检测。关键词：口

3、罩佩戴检测；YOLOv5s模型；鬼影混洗卷积；自适应空间特征融合；轻量级通用上采样算子开放科学（资源服务）标志码（OSID）：源代码链接：https：/ J.计算机工程，2023，49（8）：265-274.英文引用格式：ZHANG X Y，ZHANG F，HAO B，et al.Mask wearing detection algorithm based on improved YOLOv5 J.Computer Engineering，2023，49（8）：265-274.Mask Wearing Detection Algorithm Based on Improved YOLOv5ZH

4、ANG Xinyi，ZHANG Fei，HAO Bin，GAO Lu，REN Xiaoying（School of Information Engineering，Inner Mongolia University of Science and Technology，Baotou 014000，Inner Mongolia，China）【Abstract】In dense crowd scenes in public places，face mask wearing detection algorithms have poor detection results because of miss

5、ing information caused by target occlusion and the problems of small detection targets and low resolution.To improve the detection accuracy and speed of the model as well as to reduce the hardware footprint，an improved mask wearing detection algorithm based on YOLOv5s is proposed.The conventional co

6、nvolution is replaced with Ghost-Shadowed wash Convolution（GSConv），combining Standard Convolution（SConv）and Depth-Wise separable Convolution（DWConv）with channel blending，thereby improving the network speed with guaranteed accuracy.The nearest neighbor upsampling method is replaced with a lightweight

7、 universal upsampling operator to make full use of the semantic feature information.Adaptive Spatial Feature Fusion（ASFF）is added at the end of the neck layer of the improved YOLOv5s model，which allows better fusion of features at different scales and improves the network detection accuracy.In addit

8、ion，adaptive image sampling is used to alleviate the problem of data imbalance.Mosaic data enhancement is used to make full use of small targets.Experimental results show that the model achieves a mean Average Precision（mAP）value of 93%on the AIZOO dataset，a 2 percentage points improvement over the

9、original YOLOv5 model.It achieves 97.7%detection accuracy for faces wearing masks and outperforms the detection results of the YOLO series，SSD，and RetinaFace in the same situation.It also runs on a GPU with a 16.7 percentage points inference speedup.The model weights file uses 23.5 MB memory for rea

10、l-time mask wearing detection.【Key words】mask wearing detection；YOLOv5s model；Ghost-Shadowed wash Convolution（GSConv）；Adaptive Spatial Feature Fusion（ASFF）；lightweight universal upsampling operatorDOI：10.19678/j.issn.1000-3428.0065701基金项目：内蒙古自治区科技计划项目（2021GG0046，2021GG0048）。作者简介：张欣怡（1998），女，硕士研究生，主研

11、方向为图像处理；张飞，副教授、博士；郝斌，讲师、博士；高鹭，副教授、硕士；任晓颖，讲师。收稿日期：2022-09-07 修回日期：2022-11-07 Email：开发研究与工程应用文章编号：1000-3428（2023）08-0265-10 文献标志码：A 中图分类号：TP3912023年 8月 15日Computer Engineering 计算机工程0概述2019年，新型冠状病毒肺炎在全球大肆传播，新冠肺炎主要通过唾液、飞沫传播，而且其传染性很强，正确地佩戴口罩可以有效地减少新冠疫情的传播。在目前疫情常态化的情况下，人们在地铁、医院、学校、商场等人群密集的公共场合中均会对佩戴口罩情

12、况进行检查。与此同时，佩戴口罩除了可以有效减少疾病的传播，在工业制造和生产时，还可以在一定程度上防止 PM2.5、扬尘等污染物对呼吸道的伤害。目前口罩佩戴检测多以人工为主，在此过程中可能存在漏检、浪费人力资源的问题。因此，对基于机器视觉的口罩佩戴检测方法进行研究具有重要意义。近年来，深度学习技术在目标识别领域已经有了广泛应用，目标检测的主要功能是检测图像中出现的既定目标类别以及目标的位置信息。学术界同时也涌现出了许多基于深度学习的人脸佩戴口罩的检测方法，主要分为两类：一类是以 Faster R-CNN1与 Mask R-CNN2等为代表的两阶段检测算法；另一类是以 YOLO3等为代表的一阶段目

13、标检测算法。传统的两阶段检测模型主要基于候选区域进行检测。文献 4 在训练模型时，利用迁移学习的思想，在模型训练中加入预训练权重，并将数据集划分为一般场景和复杂场景进行训练。文献5使用ResNet50 中 3 个不同尺度的特征层进行多尺度融合，并使用聚类算法代替人工调整聚类 anchor尺寸，提高了模型的检测能力。文献 6 在区域提议网络中使用多任务增强，减少了分辨率较低的口罩目标误检，同时引入了 5 种新尺度，增加 anchor 数量至15个，提升了模型的检测精度。目前，基于边框回归思想的一阶段检测算法迅速发展，其具有实时性强的优点，适用于口罩佩戴检测。文献 7 将 YOLO 模型应用于人脸

14、口罩的检测，并对比了 YOLOv1、YOLOv2、YOLOv3 在口罩检测方面的性能。文献 8 对口罩佩戴算法进行轻量化研究，并对 YOLOv3模型进行改进，提升了口罩检测速度。文献 9 对 YOLOv4-Tiny进行改进，使用轻量化残差模块使模型快速收敛，并基于 3 个尺度的特征分支以增强低特征层的信息表达能力，降低了小目标的漏检率。文献 10 对 YOLOv5-4.0进行改进，添加了自适应锚定框等，提升了 0.71%的 mAP 值。但是，在人群密集的场所中，人脸目标变小，清晰度变低，带上口罩后失去了鼻子、嘴等特征信息，而且实时检测需要满足速度快、精度高等要求。所以，口罩检测算法的精度、速度

15、等仍然有待提高。本文主要针对在复杂场景下对佩戴口罩目标识别的高实时性、高检测率、低误检率的要求，提出一种改进 YOLOv5s 模型。YOLOv5s 网络模型的主体部分集中于特征融合的 Neck 层，通过对 Neck 层进行改进，在确保检测速度的前提下提高检测精度。在此基础上，将传统卷积替换为结合标准卷积和深度可分离卷积并进行通道混洗的鬼影混洗卷积（Ghost-Shadowed wash Convolution，GSConv），并将最近邻法上采样替换为轻量级通用上采样算子，即内容感知特征重组（Content-Aware ReAssembly of FEeat

16、ures，CARAFE），对特征语义信息进行充分利用。在 Neck层末端添加自适应空间特征融合（Adaptive Spatial Feature Fusion，ASFF），以保证在卷积的过程中融合更多小目标信息。此外，使用自适应图片采样缓解数据不均衡的问题，同时使用马赛克数据增强，以充分利用特征图中的小目标信息。1YOLOv5算法YOLO 是一种经典的一阶段目标检测算法。YOLOv14使用整张图作为网络输入，采用直接回归的方法在输出层输出锚框的位置和其所属类别。随后，YOLOv211、YOLOv312在其基础上进行改进，分别采用 darknet-19、darknet

17、-53作为特征提取网络，提升了速度和精度。YOLOv413则在传统 YOLO 的技术上加入马赛克数据增强、CIoU 损失函数等，实现在一块 1080 Ti的 GPU 上完成训练模型，加强 YOLO在工业界目标检测的应用。YOLOv514是一种经典的一阶段目标检测算法，其优点是运行速度快且检测效果好，通常应用于工业级实时目标检测系统。目前，YOLOv5 已经更新到 6.0 版本，并且拥有 YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 这 4 个版本。其中，YOLOv5s模型深度小、参数量少，相对另外 3个版本推理速度更快，更适用于口罩实时性检测。YOLOv5s网络结构

18、主要包括 4个部分：即输入（Input）、特征提取网络（Backbone）、特征融合网络（Neck）和检测网络（Prediction）。Input层对图像进行预处理后，通过 Mosaic数据增强依据随机缩放、随机剪裁、随机排布的方式进行拼接，使小目标分布更加均匀，并添加了自适应锚框计算与自适应图片缩放，进一步提高了模型的检测速度与精度。Backbone 包含跨阶段局部网络（Cross Stage Partial Network，CSP）层15和空间金字塔池化（Spatial Pyramid Pooling，SPP）16。CSP 将特征图按照通道维

19、度拆分为两部分，一部分为正常网络，另一部分直接与特征映射进行拼接。在确保网络检测精度的前提下，可以减少梯度重复导致整个网络的计算量过高的问题。为了更好地满足各种不同尺寸大小的输入，Backbone 最后加入了 SPPF 模块。SPPF通过最大池化来保证最终的输入特征一致，并且增大了预测框的感受野。266第 49卷第 8期张欣怡，张飞，郝斌，等：基于改进 YOLOv5的口罩佩戴检测算法Neck 部分由特征金字塔（Feature Pyramid Networks，FPN）17和路径聚合网络（Path Aggregation Networks，PANet）18组成。FPN 结构自顶向

20、下传达特征信息，PANet接收后再自底向上传达空间信息，最后进行参数聚合，有效地提高了网络的特征融合能力。Prediction 使用 GIoU 损失函数预测边界框。其中，损失函数由用于计算预测框与标定框误差的定位损失函数（box_loss）、用于计算网络置信度的置信度损失函数（obj_loss）和用于计算锚框与对应标定的分类是否正确的分类损失函数（cls_loss）3 个部分组成，并且使用加权 NMS 对非极大值进行抑制，从而得到最优目标框。损失函数公式如下：LCIoU=1-IIoU+2(bbgt)c2+（1）=(1-IIoU)+（2）=12(arctanwgthgt-arctanwh)2（3

21、）Lconf=-i=0S2j=0BIobjijloga(Cij)-noobji=0S2j=0BInoobjijloga(1-Cij)（4）Lcls=-i=0S2j=0BIobjijCclspCijloga(pCij)+()1-pCijloga(1-pCij)（5）LLoss=LCIoU+Lconf+Lcls（6）其中：IoU 为真实框和预测框交并比值；2(bbgt)为真实框和预测框中心点的欧氏距离；C 表示覆盖预测框与真实框的最小闭合框的对角线长度；a为权重参数；hgt和wgt为预测框的长和宽，w和h为真实框的长和宽；S 是特征图的边长；B 是特征图中每个单元的锚点数量；Iobjij表示第 i

22、个单元中的第 j个锚是否对落入该区域的边界盒的概率负责，若负责则Iobjij=1，否则为 0；Inoobjij的定义和值与Iobjij相反；Cij是所提出的第 i 个单元中的第 j 个锚的置信度得分，Cij 0，1；noobj是平衡系数在训练时被设置为 0.5；pCij是第 i 个单元中第 j 个锚的预测类别；pCij是真实的类别；LLoss为总的损失函数。YOLOv5s 6.0模型结构如图 1所示。2改进的 YOLOv5算法2.1改进的模型结构本文针对背景复杂、被识别物体尺寸大小不一的问题，提出改进的 YOLOv5 算法。YOLOv5算法模型的主体部分集中

23、于进行特征融合的Neck 层，该层包含 YOLOv5 模型中的绝大部分卷积计算和参数。因此，本文对 Neck 层进行改进，为了在确保推理速度的情况下提高检测精度，将传统卷积换为结合标准卷积和深度可分离卷积图 1YOLOv5s 6.0模型的结构Fig.1Structure of YOLOv5s 6.0 model2672023年 8月 15日Computer Engineering 计算机工程的鬼影混洗卷积（GSConv），并将最近邻法上采样替换为轻量级通用上采样算子，对特征语义信息进行充分利用。为了保证在卷积的过

24、程中融合更多小目标信息，在 Neck 层最后添加自适应空间特征融合。本文改进后的算法模型结构如图 2所示。在图 2 中，X1、X2、X3 分别表示 Backbone 层的3个输出。输入图像首先经过 Backbone网络进行特征提取，随后经过改进后的 Neck 网络进行特征融合，然后将其送到设计的检测网络中进行训练，从而得到模型的权重参数，最后利用训练好的权重参数对网络模型进行测试。2.2鬼影混洗卷积标准卷积（Standard Convolution，SConv）19是使用不同的卷积核对 3个通道同时卷积。深度可分离卷积（Depth-Wise separa

25、ble Convolution，DWConv）20是先对 3个通道分别卷积，再通过 11的卷积核拼接起来。随着需要提取的属性的增加，深度可分离卷积可以节省更多的参数提高网络速度。但是，DWConv 比 SConv 的特征提取和融合能力低很多，在口罩检测时准确性会降低。YOLOv5 模型在 head 层进行特征融合时，空间信息会逐步转向通道传输，并且特征图的高度和宽度在进行压缩和通道扩展时，稀疏卷积会切断每个通道之间的隐藏链接，导致部分语义信息丢失。在Neck 中引入 GSConv21，最大程度地保留了通道之间的链接，在降低计算成本的同时，可以确保模型的准确率。如

26、果在网络中所有卷积都使用 GSConv，会使层数加深，推理速度变慢，而 head部分通道维度已经变大，宽度、高度变小，使用 GSConv可以提高网络的推理速度，同时提高网络的精度。本文设输入的通道数为 Cin，输出的通道数为Cout。首先将输入的特征图经过卷积生成通道数为Cout/2 的特征张量，再经过深度可分离卷积得到另一个特征张量。将两个特征张量按照通道数进行拼接操作，最后使用通道混洗（Shuffle）操作将生成的信息渗透到特征张量的每一个部分。GSConv 结构如图 3所示。图 2改进 YOLOv5s模型的结构Fig.2Structure of the improved YOLOv5s

27、model图 3GSConv结构Fig.3Structure of GSConv268第 49卷第 8期张欣怡，张飞，郝斌，等：基于改进 YOLOv5的口罩佩戴检测算法Shuffle 可以实现通道之间信息的流通，通过更加简单的方式增强特征的表达能力。通道混洗22可以通过张量的操作来实现，具体过程如图 4所示。在图 4 中，数字 16 为输入通道数的编号，首先使用 Reshape 操作使通道扩展成二维，然后通过Transpose 操作对两个维度进行置换，最后利用Flaten 操作将这两个维度复原为原来的维度。通过此操作可以在不增加计算量的情况

28、下完成通道之间的信息融合。2.3轻量级通用上采样算子在 YOLOv5 模型中，上采样采用最近邻法通过像素点的空间位置来确定上采样核，对特征图的语义信息没有进行充分的利用，仅仅是一种“均匀”的上采样，且感受野比较小，不能更好地利用周围的信息。在 YOLOv5 中引入轻量级通用上采样算子，在不引入过多参数与增加计算量的前提下能够增大感受野，并且充分利用特征图语义相关内容，基于特征图的内容进行上采样。CARAFE23主要由上采样预测模块和特征重组模块两个部分组成。设输入的特征图尺寸为 HWC 的输入特征图，经过倍率为的上采样，得到尺寸为 HWC 的输出特征图。CARAFE 结构如图 5所示。CAR

29、AFE步骤如下：步骤 1 上采样预测模块。为了减少计算量，首先对特征图的通道进行压缩，通过一个 11 的卷积将通道数压缩到 Cm。接着对内容进行编码并对上采样进行预测，根据位置信息使用不同的上采样核，设上采样核为 kupkup，通过 kencoderkencoder的卷积层来预测上采样卷积核，输入的通道数为 Cm，输出的通道数为kupkup，然后将通道维在空间维展开，得到预测的尺寸为 HWkupkup上采样核。最后上采样核的每个通道 kupkup利用归一化指数函数进行归一化处理，确保卷积核的权重加起来等于 1。步骤 2 特征重组模块。将输出的特征图中的每个位置映射回输入特征图，取出中心的 ku

30、pkup区域，与预测出的该点的上采样核作点积。其中，位置相同但通道不同的点共享同一个上采样核。轻量级通用上采样算子参数如式（7）所示：2(C+1)Cm+2（Cmk2encoder2k2encoder+1）2k2up+22k2upC（7）2.4自适应空间特征融合在目标检测中，通常大目标包含特征信息多，但分辨率较低，细节感知能力差，而小目标像素占比少，覆盖面积小，但包含更多细节信息，几何特征表达能力较强。YOLOv5 模型的 Neck 层采用 FPN 结构与 PANet 结构相结合，对不同尺度的特征进行融合，但是 PANet 的融合方式只是将特征图转换成相同尺寸后相加，对不同尺度特征融合的能力仍有

31、不图 4通道混洗过程Fig.4Process of channel Shuffle图 5CARAFE结构Fig.5Structure of CARAFE2692023年 8月 15日Computer Engineering 计算机工程足。ASFF 算法 24不仅能够过滤其他层次的特征并且保留该层的有效特征，使信息层次化，还能提高模型训练的精确率。在 PANet结构上加入 ASFF，通过对不同尺度的特征添加权重系数，从而进一步提高融合效率。ASFF结构如图 6所示。在图 6 中，Level 1、Level 2、Level 3 分别为YOLOv5 模型 Neck 层输出的 3 个特征图。以

32、ASFF-1 的计算过程为例，首先采用 11 大小的卷积将Level 2 和 Level 3 压缩到与 Level 1 通道数一致。然后使用最大池化法将Level 2和Level 3形成与Level 1相同维度的特征图，记作 resize_level 2、resize_level 3。再将 Level 1、resize_level 2 和 resize_level 3 经过 11大小的卷积得到权重参数、。最后将 Level1、resize_level 2 和 resize_level 3 分别乘以其经过归一化指数函数的权重参数、，再相加得到最后ASFF-1输出的特

33、征图。ASFF 自适应空间特征融合的公式如下：ylij=lij x1 lij+lij x2 lij+lij x3 lij（8）其中：ylij表示该层输出的特征图；x1 lij、x2 lij、x3 lij分别表示 YOLOv5颈部每层输出到该层的特征向量；lij、lij、lij分别表示每一层的权重参数，并通过归一化指数函数操作使参数满足lij+lij+lij=1lijlijlij0，1。3实验与结果分析3.1实验环境及数据集本文算法的实验模型训练过程所使用的操作系统为 Ubuntu18.04，显卡为 NVIDIA Corporation GA102（GeForce RTX 3080 Ti）

34、，深度学习框架为PyTorch1.10，显存为 12 GB，使用版本为 11.4 的CUDA对 GPU进行加速。本文使用的 AIZOO 数据集主要是从 WIDER Face 和中国科学院的 MAFA 中分别选择了 3 894 和4 064个数据，对离脸部边缘有缝隙等不严格的标注框进行重新标注。为了避免捂住嘴巴的动作被误识别为佩戴口罩，在实验数据中加入了嘴被手或纸巾等其他东西遮挡的数据，从而避免了此类干扰。本文共运用 7 959 张图片对其进行训练集、验证集、测试集之比为 8 1 1的数据划分，其中，6 121张用作训练集，919 张用作验证集，919

35、张用作测试集。部分图片如图 7所示。对数据进行可视化分析结果如图 8 所示，其中，图8（a）展示了未佩戴口罩和佩戴口罩实例数量，图8（b）中 x和 y代表标签框的中心点位置，颜色越深代表这个位置目标框的中心点越集中，图 8（c）中 height 和width分别表示标签的长和宽。从图 8 可以看出，数据集中物体分布均匀，小目标占总实例样较大，该数据集背景复杂，与平日中应用场景相符，但是没有佩戴口罩占总样本实例较多，存在轻微的样本不平衡，本文通过自适应图片采样来解决该问题。另外，本文还使用了阿里天池口罩数据集来验图 6ASFF结构Fig.6Structure of ASFF图 7AIZOO数据

36、集部分图片Fig.7Partial pictures of AIZOO dataset图 8AIZOO数据集标签大小分布Fig.8Label size distribution of AIZOO dataset270第 49卷第 8期张欣怡，张飞，郝斌，等：基于改进 YOLOv5的口罩佩戴检测算法证本文算法。阿里天池数据集包含 1 278张图片，其中，训练集 1 023张图片，训练集 127张图片，测试集127张图片。数据分布如图 9所示。3.2实验及评价指标AIZOO 数据集标注格式为 PASCAL VOC，需将其改为 YOLO 所需的 txt 文件格式，具体为 id、x、y、w、h。具体

37、运算如下：x=xenter/wwidth（9）y=ycenter/hheight（10）w=（xmax-xmin）/wwidth（11）h=（ymax-ymin）/hheight（12）其中：id 为每个类别的编号，本文 no-mask 设为 0，mask 为 1；（xmin，ymin）为标签框左上角的坐标；（xmax，ymax）为标签框右下角的坐标。为了解决佩戴口罩和未佩戴口罩数据不均衡的问题，采用自适应图片采样。根据物体类别的数量占比及每张图片中各类物体的出现频数，生成每张图片的采样权重，再根据图片的采样权重生成采样的索引序列，类别数量和频数与类别权重成反比，若某张图片频数最高的类别数量占

38、比也较其他类别高，则这张图片被采样的概率就会降低，通过这种采样方式可以有效缓解类间不平衡问题。本文使用马赛克数据增强，将随机缩放、随机剪裁、随机排布的图片进行拼接，具体效果如图 10 所示。这种数据增强方式对数据集进行了有效扩充，并使小目标分布更加均匀，提升网络鲁棒性。在本文模型的训练过程中，为了尽可能实现公平对比，设置参数如表 1所示。在公共场合检测是否佩戴口罩需要满足实时性，使用平均单张图片平均推断时间作为评价指标。在检测准确性评价指标方面，本文选择在目标检测领域中常用的 mAP（0.5）和 mAP（0.5 0.95）指标25。在本算法中平均精度均值（mean Average Precis

39、ion，mAP）计算公式如下：mmAP=AAP no-mask+AAP mask2（13）在计算精确率的过程中，首先设定预测框与真表 1模型训练参数 Table 1Model training parameters参数名称输入分辨率/像素初始学习率循环学习率权重衰减系数学习率动量热身训练数/次检测框位置损失系数分类损失系数执行都损失系数训练数/次批处理数/个锚框参数值6406400.010.020.000 50.9373.00.050.50.51501610,13,16,30,33,23,30,61,62,45,59,119,116,90,156,198,373,326图 9阿里天池数据集标签

40、大小分布Fig.9Label size distribution of Ali Tianchi dataset图 10马赛克数据增强后的图片Fig.10Image after Mosaic data enhancement2712023年 8月 15日Computer Engineering 计算机工程实框交并比（IoU）阈值，然后绘制预测框的 P-R 曲线，计算出佩戴口罩和未佩戴口罩的AP值。mAP（0.5）是指 IoU 阈值取 50%时的 mAP 值。此外，将阈值从50%开始，以 5%为步长逐渐升高至 95%，得到不同IoU 阈值下的 mAP，mAP（0.5 0.95）即为所有 mAP的平

41、均值。3.3结果分析3.3.1 模型训练根据以上参数设置，在 AIZOO 数据集上对本文模型进行训练，得出训练模型损失函数、精度曲线如图 11 所示，阿里天池数据集运行结果如图 12所示。从图 11 和图 12 可以看出，本文算法 loss值不断下降并且收敛，训练精度不断上升，网络模型具有较好的收敛能力和学习能力。目前已经有多种基于深度学习的目标检测方法，常见的有应用于小目标检测的 SSD26算法、应用于口罩佩戴的 RetinaFace27，以及应用广泛的 YOLO系列算法。为了证明本文算法的性能，表 2 给出了AIZOO 数据集以及阿里天池数据集在本文算法和其他目

42、标检测算法的对比。由表 2 可见，由于佩戴口罩后，口罩目标比人脸口、鼻、嘴目标分辨率大，且特征信息较简单，因此佩戴口罩检测精度相比未佩戴口罩精度较高。本文算法相较于其他 5种算法至少有 2个百分点的领先，其中，在 AIZOO 数据集中，本文算法相较于专用于人脸检测的 RetinaFace 的精度提升了 2.7 个百分点，相较于针对小目标检测的 SSD 算法则有 12.2个百分点的提升。此外，在阿里天池数据集中分别提升了4.3 和 16.7 个百分点。以上对比结果进一步证明了本文算法相较于其他算法的优越性。3.3.2 消融实验为了验证添加各个模块的作用，在共同应用图 11AIZOO数据集训练结果

43、 Fig.11Training result of AIZOO dataset图 12阿里天池数据集训练结果 Fig.12Training result of Ali Tianchi dataset表 2两种数据集下不同算法的性能对比 Table 2Performance comparison of different algorithms in two data sets%数据集AIZOO阿里天池算法YOLOv3YOLOv4SSDRetinaFaceYOLOv5s本文算法YOLOv3YOLOv4SSDRetinaFaceYOLOv5s本文算法APMask91.290.396.992.795.

44、997.789.289.987.490.894.294.7No-mask80.987.464.887.986.088.273.173.956.978.175.882.9mAP（50）86.188.980.890.391.093.081.282.072.184.585.088.8272第 49卷第 8期张欣怡，张飞，郝斌，等：基于改进 YOLOv5的口罩佩戴检测算法YOLOv5s模型框架的前提下，对AIZOO数据集进行消融实验，其结果如表3所示，其中，表示加入该创新点。其中，表 3 第 1 行为原始 YOLOv5 检测网络结果，可以看出，当原有网络加入 GSConv之后，可以融合通道之间的信息

45、，从而使检测精度提升了 1.6个百分点，因为融合了深度可分离卷积，所以提升了网络的推断速度；加入 CARAFE轻量级上采样算子后，在上采样的过程中对语音信息进行充分利用，使检测精度提升了 1.7 个百分点；加入 ASFF 之后，对 Neck层融合的特征进行更进一步的融合，增强了特征感知力，使检测精度提升了 1.6 个百分点。当添加CARAFE 和 ASFF 时，虽然推断时间相对增加，但是精度有所提高，证明了 GSConv在提升网络速度中起重要作用。本算法综合了各个模块的优点，检测精度达到了 93%，并在 mAP（0.5 0.95）指标上提升了2.3 个百分点，推断速度

46、提升了 16.7 个百分点，具有较好的实时性，证明了该算法的优越性。此外，为了证明本文算法在口罩佩戴检测方面的可迁移性，使用 AIZOO 和阿里天池数据集进行对比，结果如表 4所示。由表 4 可见，在检测的精度方面，本文 GCA-YOLOv5s 算法在 AIZOO 数据集上达到了 93%的mAP（50）和 66%的 mAP（50 95），相比基础的YOLOv5s算法分别提升了 2.0 和 2.3 个百分点；在阿里天池口罩数据集中，mAP（50）和 mAP（50 95）分别达到了 88.8%和 48.8%，对比 YOLOv5s 分别有了3.8和 3.7

47、个百分点的提升。在模型大小方面，表 4中模型权重均以 32 bit精度保存，本文算法模型大小在AIZOO 数据集和阿里天池数据集上分别比原模型小 0.6 MB 和 0.2 MB，推断时间分别提升了 0.3 ms和1.4 ms，证明了该模型在平时应用场景的可实施性和在多个口罩数据集中的可扩展性。3.3.3 检测结果可视化分析YOLOv5s 与本文改进算法运行效果如图 13 所示，其中，左边为 YOLOv5s 效果图，右边为本文检测效果图。通过图 13 的检测效果对比可以看出，在面对目标较小、分辨率较低、密度高、背景虚化的物体时，本文算法相较于 YOLOv5s 可以检测出更多目标，并且误检减少，但

48、仍有一部分特征信息较少、遮挡严重且分辨率低的目标不能被检测出来。4结束语为解决公共场合佩戴口罩检测精度需求高、速度需求快的问题，本文设计一种在复杂背景下进行口罩佩戴检测的改进 YOLOv5s算法，与 YOLOv5算法相比，该算法可以在确保推理速度的前提下，提升表 3消融实验结果 Table 3Ablation experiment resultsGSConvCARAFEASFFmAP（50）/%91.092.692.792.692.792.992.993.0mAP（50 95）/%63.765.765.565.565.965.965.566.0推断时间/ms1

49、.81.61.81.82.21.91.71.5表 4本文算法与 YOLOv5s算法的性能对比结果 Table 4Results of performance comparison between the proposed algorithm and YOLOv5s algorithm数据集AIZOO阿里天池算法YOLOv5s本文算法YOLOv5s本文算法模型大小/MB24.123.513.913.7mAP（50）/%91.093.085.088.8mAP（50 95）/%63.766.045.148.8推断时间/ms1.81.53.21.8图 13YOLOv5s算法和本文算法检测效果对比Fig

50、.13Comparison of detection effect between YOLOv5s algorithm and the proposed algorithm2732023年 8月 15日Computer Engineering 计算机工程模型 2 个百分点的精度，同时降低模型权重文件的内存存储和对硬件环境的依赖。后续可以在口罩特征检测中融入其他更多特征，满足更多的社会实际生产要求，保障公共安全。参考文献 1 REN S Q，HE K M，GIRSHICK R，et al.Faster R-CNN：towards real-time object detection with r

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？