基于改进YOLOV5的火焰检测算法

资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期0引言近年来，火灾发生频率越来越高，且火灾的发生往往伴随着一定程度的人员伤亡、环境破坏以及财产损失。为了避免火灾事故带来的危害，应在火焰产生的初期阶段对火焰进行准确快速的检测，这不仅有利于及时控制火情，还可有效降低火灾造成的恶劣影响。鉴于火焰检测的重要性，人们已对火焰检测方法进行了广泛的研究。目前，有基于人工定义火焰特征和基于卷积神经网络2种检测方法。基于人工定义火焰特征的检测方法，由于多数火焰目标较小以及阳光、灯光等与火焰颜色相似，因此该方法的检测平均精度低、小目标火焰漏检率高。人们使用将火焰的YUV颜色模

2、型、形状和运动特征相结合的方法1和将RGB颜色模型与ViBe背景提取算法相结合的方法2来提高基于人工定义火焰特征检测方法的效果，但效果仍不理想。卷积神经网络具有较好的自主学习性、容错性以及较快的速度3，常用于图像的识别和分类。现今，用于火焰检测的卷积神经网络有CNN4、Faster RCNN5和YOLO6系列。其中，YOLO系列相比于其他卷积神经网络而言，能够较好地提取图像的全局信息，且可以进行端到端的训练，用在火焰检测中更具优势。YOLOV57是目前最新的卷积神经网络，相较于其他 YOLO系列，YOLOV5具有更快的速基于改进YOLOV5的火焰检测算法王洪义，孔梅梅，徐荣青（南京邮电大学电子

3、与光学工程学院、微电子学院,江苏南京 210023）摘要：针对现有的火焰检测算法检测平均精度低、小目标火焰漏检率高的问题，提出一种改进YOLOV5的火焰检测算法。该算法使用Transformer Encode模块代替YOLOV5主干网络末端的CSP bottleneck模块，以增强网络捕获不同局部信息的能力，提高火焰检测的平均精度，并且在YOLOV5网络中增加CBAM注意力模块，增强网络提取图像特征的能力，对于小目标火焰能够较好地提取特征，降低小目标火焰的漏检率。将该算法在公开数据集BoWFire、Bilkent上进行实验，结果表明，改进YOLOV5网络的火焰检测平均精度更高，可达83.9%

4、，小目标火焰漏检率更低，仅为1.6%，检测速率为34帧/s，相比于原YOLOV5网络，平均精度提升了2.4个百分点，小目标火焰漏检率降低了4.1个百分点，改进后的YOLOV5网络能够满足火焰检测的实时性和精度要求。关键词：YOLOV5算法；Transformer；CBAM注意力中图分类号：TP391.4文献标志码：ADOI:10.3969/j.issn.1006-2475.2023.01.017Flame Detection Algorithm Based on Improved YOLOV5WANG Hong-yi，KONG Mei-mei，XU Rong-qing（College of E

5、lectronic and Optical Engineering&College of Microelectronics，Nanjing University of Posts andTelecommunications，Nanjing 210023，China）Abstract:Aiming at the existing flame detection algorithms having problems of low average detection accuracy and high misseddetection rate of small target flames，an im

6、proved YOLOV5 flame detection algorithm is proposed.The algorithm uses the Transformer Encode module to replace the CSP bottleneck module at the end of the YOLOV5 backbone network，which enhances thenetworks ability to capture different local information and improves the average accuracy of flame det

7、ection.In addition，theCBAM attention module is added to the YOLOV5 networker，which enhances the networks ability to extract image features，andcan better extract features for small target flames，reducing the missed detection rate of small target flames.Experiment with thealgorithm on the public datas

8、ets BoWFire and Bilkent，the experimental results show that the average flame detection accuracy ofthe improved YOLOV5 network is higher，reaching 83.9%，the small target flame missed detection rate is lower，only 1.6%，andthe detection rate is 34 frames/s.Compared with the original YOLOV5 network，the av

9、erage accuracy is improved 2.4 percentagepoints，the small target flame missed detection rate is reduced by 4.1 percentage points，the improved YOLOV5 network canmeet the real-time and precision requirements of flame detection.Key words:YOLOV5 algorithm；Transformer；CBAM attention文章编号：1006-2475（2023）01

10、-0103-05收稿日期：2022-03-09；修回日期：2022-04-20基金项目：国家自然科学基金青年科学基金资助项目（61905117）作者简介：王洪义（1997），男，河南周口人，硕士研究生，研究方向:图像处理，E-mail:;孔梅梅（1983），女，副教授，研究方向:光学成像，E-mail:;通信作者:徐荣青（1966），男，教授，研究方向:人工智能，E-mail:。计算机与现代化2023年第1期度和更高的平均精度。Dai等8使用MobileNet网络替换 YOLOV3 的主干网络。赵媛媛等9在原YOLOV3的基础上增加了第四层检测层。但以上 2种改进方法的火焰检

11、测平均精度低、小目标火焰漏检率高，不能满足火焰检测的要求。为了解决火焰检测平均精度低、小目标漏检率高的问题，本文提出一种改进 YOLOV5的火焰检测算法。使用Transformer Encode10模块代替原网络中的部分卷积模块，提升网络提取不同局部特征的能力，提高火焰检测的平均精度。在YOLOV5的主干网络和检测头中添加 CBAM（Convolutional Block Attention Module）11注意力模块，提升网络检测小目标的能力，降低火焰检测的小目标漏检率。1改进YOLOV5算法1.1YOLOV5算法简介YOLOV5算法由Ultralytics LLC公司于2020年5月份提

12、出7，其图像推理速度比 Faster RCNN12、YOLOV313和YOLOV47算法都要快，可达到140帧/s7。YOLOV5 分别使用 CSPDarknrt53 作为主干网络、PANet15作为颈部和 YOLO 检测头16作为检测头，其网络结构如图1所示。图1YOLOV5网络结构图1.2本文算法本文使用Transformer Encode模块和CBAM模块改进原来的YOLOV5网络，不仅提高了火焰检测的平均精度，还降低了小目标火焰的漏检率。改进YOLOV5网络结构如图2所示。1.3Transformer EncodeTransformer模块是谷歌公司于2017年提出的一种简单的神经网络

13、结构，其由Transformer Encode和Transformer Decode 这2部分组成10，最初用于文本的识别。2020 年谷歌公司将 Transformer Encode 模块用于图像识别17。Transformer Encode 由 Embedded Patches、Multi-Head Attention、Add 和 Feed Forward这4部分组成，其网络结构如图3所示。图2改进YOLOV5网络结构图图3Transformer Encode结构图在Transformer Encode模块中，首先将输入的图像进行Embedded Patches，得到一维的向量，然后通过M

14、ulti-Head Attention和Add得到全局自注意力特征图，最后通过 Feed Forward 和 Add 获得 Transformer Encode的输出。其中，Embedded Patches的作用是对输入的图像进行分割和位置编码17。位置编码不仅考虑图像的内容信息，而且考虑不同位置的要素之间的相对距离，有效地关联了物体之间的信息与位置18。Multi-Head Attention的作用是不仅可以注意当前像素点的信息，还可以更好地获取上下文语义信息19。Add的作用是使输入图像从低层直接传播到高层，一定程度上解决了网络退化的问题20。Feed Forward的作用是防止

15、模型输出的退化21。Multi-Head Attention是Transformer Encode的重要组成部分，其结构如图4所示。图4Multi-Head Attention结构图首先，Transformer Encode 的输入矩阵通过 3 个不同权重的变化矩阵得到的查询矩阵Q，键值矩阵K和值矩阵V，然后通过点积注意力，计算自注意力特9C3Conv9C3Conv3C3ConvConvFocus主干网络颈部检测头SPP3C3ConvUnsampleUnsampleConvConvConcatConcat3C3ConvConvConvConcatConvConcat3C33C3C33Conv3

16、C3CSPBottleneckUnsampleUnsampleC33ConvCSPBottleneckCBAM主干网络颈部检测头ConvConvConvConvConvConvConvConvCBAMConvConvConv3C33C33C39C39C3SPPFocusCBAMCBAMCBAMConcatUnsampleConcat3C3CBAMCBAMConcatUnsample3TransformerEncodeConcat3C3UnsampleUnsampleEmbededPatchesMulti-HeadAttentionAddFeed ForwardAddTransformer EncodeLinearLinearLinearLinearconcatScaled Dot-Product AttentionLinearQKV1042023年第1期征图，计算公式如式（1）所示。多个独立的头部可以关注不同的全局和局部信息。多头注意力是通过多组变换矩阵和公式（1）获得多个相互独立的注意力特征图，最后通过拼接得到多头注意力图22，计算公式如式（2）所示。Attention()Q,K,V

展开阅读全文

基于改进YOLOV5的火焰检测算法_王洪义.pdf