YOLOv3-CBAM长江禁捕垂钓场景识别模型研究

资源描述

1、第 54 卷第 2 期2 0 2 3 年 2 月人民长江YangtzeiverVol 54，No 2Feb，2023收稿日期:2022 06 10基金项目:国家自然科学基金项目(42141007);江苏特聘教授科研资助项目作者简介:彭迪，男，硕士研究生，研究方向为岸线监测与预报、遥感监测等。E mail:chpd0629163 com通信作者:吴太夏，男，教授，博士，研究方向为水资源环境遥感监测与评估、高光谱遥感等。E mail:wntx hhu edu cn文章编号:1001 4179(2023)02 0220 07引用本文:彭迪，吴太夏，王树东，等 YOLOv3 CBAM 长江禁捕垂钓场

2、景识别模型研究 J 人民长江，2023，54(2):220 226，233YOLOv3 CBAM 长江禁捕垂钓场景识别模型研究彭迪1，吴太夏1，王树东2，鞠茂森3(1 河海大学地球科学与工程学院，江苏南京 211100;2 中国科学院空天信息创新研究院，北京 100000;3 河海大学河长制研究与培训中心，江苏南京 210098)摘要:河湖水域岸线管控是河湖长制的重要内容，实施长江十年禁渔以来，长江岸线的非法捕捞行为屡禁不止，应用卫星无人机地面视频监控等遥感手段联合进行岸线禁捕场景识别成为趋势。为了实现对禁捕中垂钓行为的快速智能化精确检测，采用深度学习方法，利用 Mi

3、crosoft Common Objects in Context(COCO)数据集训练出一个具有较强特征提取能力的预训练权重，借助迁移学习的思想解决了目前禁捕场景样本量少的问题。为了增强对小目标的检测效果，在目标检测网络 YOLOv3 的基础上添加多个注意力机制模块，形成改进后的网络模型 YOLOv3 CBAM。实验结果表明:YOLOv3 算法采用迁移学习的训练策略，可以加快模型的收敛速度，提高模型的识别精度，将精度从 78 57%提升至 93 27%;添加注意力机制模块之后，在模型参数几乎不增加的情况下，识别精度又可提升到 93 99%。研究成果可为长江流域禁捕垂钓的实时动态监管提供技术支

4、持。关键词:YOLOv3 算法;长江禁渔;河湖管理与保护;注意力机制;迁移学习中图法分类号:TP391文献标志码:ADOI:10 16232/j cnki 1001 4179 2023 02 0330引言河湖管理与保护是一项复杂的系统工程，涉及上下游、左右岸、不同行政区域和行业1。近年来，一些地区积极探索河长制，协调整合各方力量，有力促进了水资源保护、水域岸线管理、水环境治理等工作。河湖水域岸线是保障供水安全与防洪安全的重要屏障，河湖岸线周围存在违法侵占河道、围垦湖泊、非法采砂钓鱼等乱占滥用河湖水域岸线情况等。2016 年底，中共中央办公厅、国务院办公厅印发了关于全面推行河长制的意见，要求各

5、地区各部门结合实际认真贯彻落实，提升管理水平，推进生态文明建设;2019 年初，多部委联合印发长江流域重点水域禁捕和建立补偿制度实施方案，对长江流域分阶段实施禁捕做了规定2;2022 年初，水利部制定了2022 年水利政策法规工作要点，明确提出加强常态化水行政执法，强化日常执法巡查，加大对妨碍行洪、侵占河湖岸线、违法取水、损害水生态水环境等水事违法行为打击力度3。为了应对人为偷捕对于水生态损害、水环境污染的影响4，农业农村部的通告宣布从 2020 年 1 月 1日起开始实施长江十年禁渔计划。规范禁捕水域的垂钓行为是长江岸线监管的一个重要内容，非法垂钓不但违反了法规管理条例，而且给岸线的治理带

6、来了很大的麻烦。传统的解决方案往往采用 24 h 轮班巡查来提防偷捕偷钓者，这种人防的方式给监管带来非常大的压力。虽然近些年在禁捕区域投入了非常多地面摄像头，减轻了安防人员的巡逻压力，但是通过人工判读河湖岸线周边录像摄影，再追究违规者的责任，此方第 2 期彭迪，等:YOLOv3 CBAM 长江禁捕垂钓场景识别模型研究法费时费力且时效性差。故本文将深度学习中目标检测算法运用到河湖岸线的监管中来，经过训练得到的模型可以实时检测出偷钓者的位置信息，通知安防人员采取行动，实现实时管控的同时还节约了人力物力成本。目标检测是计算机视觉的重要内容，它将目标的分割和识别结合，其准确性和实时性在安防领域、军事领

7、域和交通领域等有着广泛的应用场景。传统的目标检测算法，如 SHIFT 算法5、HOG 算法6 等，需要人工选择特征提取器里的特征用于分类器的训练。基于卷积神经网络提取特征的深度学习检测方法依靠其强大的自学习能力和自适应性成为当今检测技术领域的主流方法7。目前基于深度学习的目标检测方法主要分为两类:第一类是两阶段的目标检测算法，这类算法先粗略生成样本候选框，再进行精细的选取调整，但是检测速度较慢，其代表算法有 CNN8、Fast CNN9 等;第二类是一阶段的目标检测算法，利用卷积网络对整个图像进行处理，实现目标定位的同时预测类别，所以检测速度快，能达到实时检测的要求，其代表算法有 SSD

8、10、YOLOv1 v311 13 等。鉴于YOLOv3 算法的精度和速度的优势，许多学者通过对YOLOv3 算法结构的改进，使其能更好地适用不同的场景。魏润辰等14 基于 YOLOv3 融入空间注意力机制模块增强网络特征学习，提出对网络宽度进行调整以改善模块运算速度，提高城市道路区域行人检测的准确性和实时性，更好应对驾驶场景的实际需求;岳晓新等15 提出的道路小目标检测算法对 YOLOv3 算法网络模型中的聚类算法和损失函数进行优化，提高道路小目标的检测精度。本次研究以河湖岸线上的垂钓行为为主要研究对象。考虑到河湖岸线的摄像头往往是位置固定的，但对于距离摄像头较远的垂钓者，目标变小而使得识

9、别精度不高。针对此问题，本次研究在原 YOLOv3 的网络结构中嵌入多个注意力机制模块，改变特征层的权重信息，使网络聚焦于垂钓行为特征，抑制背景的干扰;同时由于样本量不易扩充，借助迁移学习的思想，利用 COCO 数据集得到预训练主干权重，提高模型的提取特征能力和泛化能力。试验结果表明，将上述两者结合起来可大幅提高检测精度，能进行快速高效的垂钓行为提取。1研究方法1 1模型结构YOLOv3 的主干网络为 Darknet 53 模型。Dartk-net 53 模型采用调整卷积核的步长代替最大池化来改变前向传播中张量尺寸变换，并且舍弃了 v2 版本中参数量大的全连接层;它还借鉴了 es Net 的残

10、差结构加深网络结构的深度，并采用类似 FPN(Feature Pyr-amid Networks)网络结构，提取不同尺度的特征图。YOLOv3 网络结构基本组件 DBL(Darknetconv2d_BN_Leaky)由卷积层、BN 层和 Leaky eLU 激活函数构成，通过两个 DBL 的卷积及跳跃连接构成残差单元，加深神经网络的层数的同时，有效避免了梯度消失问题。Darknet 53 交替使用残差单元和步长为 2 的 3 3 卷积核将输入模型 416 416 尺寸的图片缩小 32 倍，后续多次卷积及两次上采样保证 FPN 拼接时张量尺度相同，输出 3 种不同尺度的特征图。其中，二、三层的特

11、征图由前一层的特征图上采样后与低层网络中相同大小的特征图进行融合得到。因为浅层网络语义信息较少、位置信息较多，而深层网络中语义信息相对较多，故 YOLOv3 采用类似 FPN 结构将浅层与深层信息融合，可实现对不同尺度特征有效提取。本次研究主要是禁捕区域的垂钓行为，由于在禁捕区域的许多垂钓者距离摄像头较远，在影像中呈现为小目标，本文针对 YOLOv3 算法在小目标识别上的缺陷，将卷积块注意力模块 CBAM(Convolutional BlockAttention Module)分别嵌入到模型网络结构的 5 个位置上，其分别位于主干网络 Darknet 53 模型输出的 3个特征层后以及特征融合

12、阶段中两个上采样处理得到的特征层后，以此得到改进后的网络模型 YOLOv3 CBAM，结构如图 1 所示。本次研究保持了主干的完整性，可共用 YOLOv3 算法在 COCO 数据集上得到的主干网络权重，节约了训练成本。1 2注意力机制注意力机制被广泛用在自然语言处理、计算机视觉等任务中，是一种能改变特征权重的有效手段，在许多实验中都表现出较好的性能16 19。注意力机制可以看作是一种权重分配方式，注意力是模仿人类大脑处理大量信息时的一种机制，即关注重点区域，而忽视不重要的部分。对于不同的位置信息或者不同的通道信息赋予不同的权重因子，这样做的目的就是增加了有用特征的权重，从而获得更多目标的细节信

13、息，提高目标识别的精度。与 SENet19、ECANet20 等其他只关注通道特征的注意力机制不同，卷积块注意力模块 CBAM 提供了一种兼顾通道位置权重和空间位置权重的特征权重产生方式，它将通道注意力机制和空间注意力机制进行结合，在几乎不增加模型复杂度的情况下，能够获得十分明显的性能增益17。其实现过程如图 2 所示，CBAM 对输入进来的特征层，分别进行通道注意力机122人民长江2023 年图 1YOLOv3 CBAM 的网络结构Fig 1YOLOv3 CBAM network structure图 2CBAM 模块的结构Fig 2CBAM module structure制的处理和空间注

14、意力机制的处理。在网络加入CBAM 后，特征层对于不同空间位置、通道位置的权重得到了调整，让网络学会关注重点信息，提高识别目标物体的概率。图 3 表示 CBAM 中通道注意力模块和空间注意力模块微调特征层的过程。图 3(a)表示通道注意力机制的结构。通道注意力机制的实现可以分为两个部分:模块会对输入进来的单个特征层分别进行全局平均池化和全局最大池化。将平均池化和最大池化的结果送入共享全连接层(Shared MLP)进行处理，其中共享全连接层包括两个全连接层，对通道数先降维再升维:第一个全连接层将输出通道数缩小至原通道数的 1/r;第二个全连接层将通道放大至 r 倍，调整回原来的通道数，本文中缩

15、放因子 r 取8。对处理后的两个特征层结果进行相加，然后进行 sigmoid 函数处理。此时获得了输入特征层每一个通道的权值，且大小都在 0 1 之间。在获得这个权值后，将这个权值乘上原输入特征层即可。图 3(b)为空间注意力机制的结构。对输入进来的特征层，每一个特征点在通道上取最大值和平均值。之后将这两个结果进行堆叠，堆叠之后的结果利用一次通道数为 1 的卷积调整通道数，其中卷积核尺寸 k取 7，为了保证特征层空间上的尺寸不发生改变，填充量 p 取 3，卷积之后得到一个通道数为 1 的特征层，然后进行 sigmoid 函数处理。此时获得了输入特征层每一个特征点的权值，且大小都在 0 1 之间

16、。在获得这个权值后，将这个权值乘上原输入特征层即可。图 3CBAM 中的通道注意力模块和空间注意力模块的结构Fig 3Channel attention module andspatial attention modulein CBAM1 3迁移学习迁移学习在大量的试验中被证明是一种有效的模型改进方式，尤其是当目标数据不足时，迁移学习的方式能够在小样本的情况下获得比较好的训练结果，提升模型的训练精度和鲁棒性能。迁移学习是模型训练效果的一种泛化，诸多学者从模型复杂性和学习算法的稳定出发，导出了模型泛化的理论边界21。深度神经网络的识别效果很大程度上取决于数据样本的数222第 2 期彭迪，等:YOLOv3 CBAM 长江禁捕垂钓场景识别模型研究量，基于大批量相关场景的数据样本才能训练出一个表现效果优异的神经网络模型。如果样本集的数据不足，模型提取的效果很难得到充分的训练，从而训练出来的神经网络模型产生比较严重的过拟合现象，且泛化能力比较差22。本次研究中构建的垂钓行为的数据集比较小，若将其直接用于训练一个目标检测的网络，则训练收敛速度慢且准确率不高。因此，为了有效加快训练的迭代速度、增强训

展开阅读全文

YOLOv3-CBAM长江禁捕垂钓场景识别模型研究_彭迪.pdf