1、测试与故障诊断计算机测量与控制 ()收稿日期:;修回日期:。基金项目:广东大学生科技创新培育专项资金资助项目()。作者简介:郑楚伟(),男,广东汕头人,大学本科,主要从事深度学习和图像处理方向的研究。通讯作者:林辉(),男,广东乳源人,博士研究生,副教授,主要从事机器视觉理论及应用领域方向的研究。引用格式:郑楚伟,林辉 基于 的 安全帽佩戴检测方法 计算机测量与控制,():文章编号:():中图分类号:文献标识码:基于 的 安全帽佩戴检测方法郑楚伟,林辉(韶关学院 智能工程学院,广东 韶关 )摘要:针对目前施工现场的安全帽检测方法存在遮挡目标检测难度大、误检漏检率高的问题,提出一种改进 的安全帽
2、检测方法;首先,使用 聚类算法重新设计匹配安全帽数据集的先验锚框尺寸;其次,使用 作为 的骨干网络来提取特征,基于可移位窗口的 自注意力机制能建模不同空间位置特征之间的依赖关系,有效地捕获全局上下文信息,具有更好的特征提取能力;再次,提出 模块,基于 对 的 模块进行改进,旨在通过低成本的操作生成更多有价值的冗余特征图,有效减少模型参数和计算复杂度;最后,基于双向特征金字塔网络跨尺度特征融合的结构优势提出新型跨尺度特征融合模块,更好地适应不同尺度的目标检测任务;实验结果表明,与原始 相比,改进的 在安全帽检测任务上的 :指标提升了 ,检测速度达到每秒 帧,满足复杂施工场景下安全帽佩戴检测的准确
3、率和实时性要求。关键词:安全帽佩戴检测;新型跨尺度特征融合;,(,):,:,:;引言在工地的作业现场,正确佩戴安全帽能有效地防止施工人员在生产过程中遭受坠落物体对头部的伤害。然而在实际生产活动中,尽管每个施工项目都明文要求人员一定要正确佩戴安全帽,但仍杜绝不了个别工人缺少自我安全防范意识,在施工现场不戴或者不规范佩戴安全帽的现象。目前施工现场对安全帽佩戴情况的监控大多仍依赖人工监视,这种方式存在成本高、耗时长、容易出错的不足。采用视频自动监控方法有利于实时监控施工现场人员的安全帽佩戴情况,对安全生产环节中的安全隐患进行实时评估。目前已有学者对安全帽检测方法进行研 究。刘 晓 慧等采用肤色检测的
4、方法定位人脸,再利用支持向 量 机()实现安全帽的识别;刘云波等通过统计工人图像的上三分之一区域出现频率最高的像素点色度值并与安全帽颜色相匹配,以此来判断安全帽佩戴情况。但传统的目标检测需要通过手工设计特征,存在准确率低、不具备鲁投稿网址:计算机测量与控制第 卷 棒性等问题。随着深度学习的发展,国内外已有大量学者使用基于卷积神经网络算法对安全帽检测进行了一系列研究。其中有先提取候选框再回归定位的两阶段算法,如 ()、()和 ()等网络和直接进行一阶段目标检测的 ()和 ()系列算法。张玉涛等 使用轻量化的网络设计减小模型的计算量,使得模型达到 帧每秒的运行速度,但是总体的检测错误率达到 。张明
5、媛等 使用 网络检测施工人员的安全帽佩戴情况,但未考虑检测效率的问题,无法实现实时检测。杨莉琼等 提出了一种基于机器学习的安全帽检测方法,使得每帧图像的检测时间小于 ,满足时效性需求,但在检测图像中的小目标时准确率较低。孙国栋等 提出了一种通过融合自注意力机制来改进 的目标检测算法,具有较好的检测效果,但是模型的参数量和计算复杂度高。张锦等 在 特征提取网络中引入多光谱通道注意力模块,使网络能够自主学习每个通道的权重,提升了模型的平均准确率,但网络模型参数量以及检测速率有待提升。本文提出一种改进 的安全帽检测方法,将 作为 的骨干网络,使得模型能够更好地提取图像特征。同时,使用 聚类算法重新设
6、计匹配安全帽数据集的先验锚框尺寸,基于 对 的 模块进行改进从而减少模型参数,提出新型跨尺度特征融合模块,更好地适应不同尺度的目标检测任务。实验结果表明,改进的 在安全帽检测任务上的 :指标提升了 ,检测速度达到每秒 帧,有效解决施工现场的安全帽检测方法存在遮挡目标检测难度大、误检漏检率高的问题,满足复杂施工场景下安全帽佩戴检测的准确率和实时性要求。系统结构及原理本文通过改进 网络结构以解决安全帽检测过程存在遮挡目标检测难度大、误检漏检率高的问题。改进 网络结构如图所示,分为数据输入、骨干网络、颈部及预测部分。数据输入部分使用自适应图像填充、数据增强来对数据进行处理,提升小目标的检测的精度。骨
7、干网络部分使用 作为 的主干特征提取网络。颈部部分借鉴双向特征金字塔网络跨尺度特征融合的结构优势,在 结构进行特征融合的基础上,增添了两条特征融合路线,用较少的成本使得同层级上的特征图能够共享彼此的语义信息;另一方面,为了减少模型参数,提出了基于 对 的 模块进行改进的 模块。预测部分,如图最右图改进 网络结构侧所示,从上到下依次是经过特征融合后得到原图的、倍下采样的特征图,在此基础上使用二元交叉熵损失函数计算置信度预测损失和分类预测损失,使用广义交并比(,)计算边界框的损失,同时采用非极大值抑制对多个目标锚框进行筛选来提高对目标识别的准确度。改进 网络模型 模块 是 基 于 具 有 全 局
8、信 息 建 模 能 力 的 来构建分层特征图,同时借鉴 思想将自注意力计算限制在无重叠的窗口区域内并允许移动窗口进行特征交互,对图像大小具有线性计算复杂度,可将其作为 的骨干网络来更有效的提取图像特征。网络架构如图()所示。首先将输入的,图像传入图块分割层(),将每相邻的像素分块为一个 ,并沿着通道方向展开,使得图像维度变成了,然后在通过线性嵌入层()对每个像素的通道数据做线性变换,使图像维度变成,同时将每个样本在特征维度进行归一化处理。构造图像的层次特征图是通过在每个投稿网址:第期郑楚伟,等:基于 的 安全帽佩戴检测方法 阶段之间使用图块拼接层()对图像进行下采样,图块拼接层的实现类似于 的
9、 结构对图片进行切片操作,将间隔为的相邻像素划分为一个个 后再进行通道拼接()操作,使得特征图尺度减半。然后在通过一个标准化层(,)进行归一化操作,最后通过一个全连接层将特征图的通道数线性变换为原来的一半。原特征图经过图块拼接层后,宽和高会减半,通道数翻倍,随着网络层次的加深,节点的感受野也在不断扩大。构造出不同尺度的特征图后,将使用 模块 提 取 图 像 的 特 征。通 过 将 传 统 模 块 中 的 标 准 自 注 意 力 模 块(,)替换为由窗口 自注意力层(,)和滑 动 窗 口 自 注 意 力 层(,)交替组成的基于窗口的 自注意力模块,即将输入图像均匀的划分为互不重叠的窗口,将注意力
10、计算限制在每个独立的窗口内。本文所设计的骨干网络中第一、二、四、五个阶段均包括两个 模块,第三个阶段包括六个 模块,并将第二、三、四、五个阶段输出的特征图进行融合,得到个不同网格尺寸的输出特征图。模块的结构如图()所示,包括个 层、一个 层、一 个 层、两 个 多 层 感 知 器(,)、个路径随机失活层()和个残差连接层。输入到该模块的特征先经过 进行层归一化后,利用 层提取特征,再将残差操作得到特征使用 层归一化,然后是一个中间带有 非线性激活函数的层对通道维度进行线性变换的 ,再使用残差连接得到输出特征,再将其输入到包含 层的类似结构中。路径随机失活层的作用是将 模块的多分支路径随机失活的
11、正则化策略,以此提高模型的泛化能力,防止过拟合。同时采用残差连接结构,目的是解决神经网络中的退化问题。模块中的 层是使用从左上角像素开始的常规窗口划分策略。如图()所示,其包括窗口分割()模块、窗口重组()模块和 模块。其中窗口分割模块用于将输入的特征图分割为多个 相邻像素的互不重叠的独立窗口;窗口重组模块用于对每个独立窗口的 自注意力特征进行还原拼接为完整的 自注意力特征图;模块用于对每个独立窗口分别进行 的缩放点积注意力计算,步骤包括:对每个独立窗口的图块向量在通道维度进行线性变换,使通道数增加两倍,同时在特征维度上分割为个子空间(为注意力 的个数);通过个不同的参数矩阵、分别在个子空间中
12、对每个 像 素 的 查 询()、键()和 权 重()进行线性变换,并进行缩放点积注意力计算;将个计算结果通过可学习的权重矩阵进行拼接融合,以联合来自不同子空间中学习到的特征信息,得到 自注意力特征。其中,第个注意力头的缩放点积注意力计算结果 的表达式如式()所示:(,)()式()中,、分别为第个参数矩阵、,()为归一化的缩放点积模型,其表达式如式()所示:(,)(槡)()式()中,瓗,是不同特征进行信息交互的过程,采用点积来计算不同特征之间的相似度;除以槡进行缩放操作能保证梯度的稳定性;同时,在每一个 中添加可学习的相对位置编码瓗。自注意力特征的拼接融合表达式如式()所示。(,)(,)()为了
13、实现不重叠窗口之间的信息传递,可使用 的方式重新计算窗口偏移之后的自注意力,让模型能够学习到跨窗口的信息。如图()所示,中使用了循环移位()的方法,即通过将特征图最上面的行(是每个划分窗口的尺寸)像素移动到最下面,再将最左边的列像素移动到最右边,再使用 划分窗口的方法将重组的特征图划分为不重叠的窗口;然后通过掩码机制,将每个窗口内来自不相邻区域的像素点之间的权重系数置为,隔离原特征图中不相邻区域的像素点之间无效的信息交流,以此将自注意力计算限制在每个子窗口内;最后再通过反向循环移位()操作还原特征图的相对位置。图 模块结构图 模块在深层神经网络的特征映射中,丰富甚至冗余的信息投稿网址:计算机测
14、量与控制第 卷 图 模块往往保证了对输入数据的全面理解。部分冗余的特征可能是深层神经网络有效的一个重要原因。模块能以一种高效的方式获得这些冗余的特征。本文提出 模块,如图所示,基于 对 的 模块进行改进,旨在通过低成本的操作生成更多有价值的冗余特征图,有效的提升网络性能。模块将普通卷积层拆分为两部分,首先使用若干个的卷积核进行逐点卷积,生成输入特征的固有特征图,然后用逐层卷积进行一系列线性变换来高效地生成冗余特征图,再将冗余特征图和固有特征图进行拼接,得到和普通卷积结果具有相似作用的特征图,如图所示。与普通卷积操作相比,模块在不改变输出特征尺寸和维度的情况下能有效减少模型参数和计算复杂度。图
15、模块本文设计的 模块使用 结构来替代原始 模块的 结构,的本质是用 模块代替 结构里面的普通卷积。如图所示,第一层 模块用于增加通道数量,从而增加特征维度,第二层 模块用于减少特征维度使其适配残差连接,将输入与输出相加。引入批量 归一 化(,)尽可能保证每一层网络的输入具有相同的分布,引入具有稀疏性的 激活函数能避免反向传播的梯度消失现象,第二层 模块后没有使用 激活函数是因为 负半轴存在的硬饱和置会使其输出数据分布不为零均值而导致神经元失活,从而降低网络的性能。新型跨尺度特征融合模块在目标检测任务中,融合不同尺度的特征是提高性能的一个重要手段。目前已有的特征融合网络有 、等。使用 结构将高层
16、特征丰富的语义信息和低层特征丰富的细节信息相互融合,如图()所示。考虑 到加权双向特征金字塔网络(,)的结构优势,本文提出将 的思想应用到 的多尺度特征融合部分,通过添加横向跳跃连接,即在处于同一层级的原始输入和输出节点之间添加一条新的融合路线,如图()所示,在原始 特征跨尺度融合模块基础上添加沿着两条虚线的特征融合路线,用较少的成本使得同层级上的特征图能够共 享 彼 此 的 语 义 信 息,加 强 特 征 融 合 以 提 高 模 型精度。图不同特征融合模块的对比 改进先验锚框尺寸在模型训练中,先验锚框尺寸越接近真实边界框,模型将会越容易收敛,其预测边界框也会更加接近真实边界框。原始 模型中预设了匹配 数据集的锚框,但本文使用的安全帽数据集的边界框具有类型单一、边界框尺寸比较集中的特点,预设的锚点不能合理地直接应用。因此本文提出使用 对安全帽数据集的边界框进行聚类分析,找到 个聚类中心的边界框作为先验锚框参数的值,并将其匹配到相应的特征检测层,使模型能够更快收敛。由于卷积神经网络具有平移等变性,因而只需要通过 对边界框的宽高进行聚类,不用考虑边界框位置的影响。首先通过轮盘赌算法依据概率