1、长春理工大学学报(自然科学版)Journal of Changchun University of Science and Technology(Natural Science Edition)Vol.46No.1Feb.2023第46卷第1期2023年2月韩境和,等:基于改进Faster R-CNN的小目标电缆线号定位模型收稿日期:2022-03-16基金项目:吉林省科技厅基础研究项目(202002044JC)作者简介:韩境和(1996-),男,硕士研究生,E-mail:通讯作者:于正林(1971-),男,博士,教授,E-mail:.基于改进 Faster R-CNN 的小目标电缆线号定位模
2、型韩境和,于正林(长春理工大学机电工程学院,长春130022)摘要:针对目前小目标电缆线号难以准确定位的问题,提出了基于深度学习的在不同干扰下能准确定位小目标线号的算法。由于电缆应用场景存在有噪声、粉尘、光照变化等方面的恶劣条件,不利于线号区域的定位,而且小目标线号对定位精度要求较高,因此基于 Faster R-CNN 模型进行改进,主干网络使用 ResNet-50 并对其进行优化,利用特征金字塔和多头自注意力机制,提升网络性能,提高小目标线号的检测精度与模型鲁棒性。实验结果表明,提出的电缆线号定位模型算法相比优化之前准确率提升了3.9,定位准确率高达99.2,能有效提高小目标线号的定位准确率
3、。关键词:小目标线号定位;深度学习;特征金字塔;Faster R-CNN;ResNet-50中图分类号:TP391文献标志码:A文章编号:1672-9870(2023)01-0065-08A Small Target Cable Number Localization ModelBased on Improved Faster R-CNNHAN Jinghe,YU Zhenglin(School of Mechatronic Engineering,Changchun University of Science and Technology,Changchun 130022)Abstract:
4、For the current problem that small target cable line numbers are difficult to locate accurately,an algorithm basedon deep learning that can accurately locate small target line numbers under different disturbances is proposed.Since thecable application scenario has harsh conditions in terms of noise,
5、dust,and light changes,which are not conducive to the local-ization of the line number area,and the small target line number requires high localization accuracy,the Faster R-CNNmodel is improved based on the Faster R-CNN model,the backbone network uses ResNet-50 and optimizes it,and thefeature pyram
6、id and multi-headed self-attention mechanism are used to improve the network performance and the smalldetection accuracy and model robustness of the target line number.The experimental results show that the proposed cableline number localization model algorithm improves the accuracy rate by 3.9%comp
7、ared with that before optimization,andthe localization accuracy rate is as high as 99.2%,which can effectively improve the localization accuracy of small target linenumbers.Key words:small target line number positioning;deep learning;feature pyramid;Faster RCNN;ResNet-50随着工业制造的发展,电缆作为现代工业不可缺少的生产材料,充
8、斥在现代生活的各个方面中,在车间与工厂应用电缆的过程中,想要提高生产效率和自动化程度,那么电缆识别就是长春理工大学学报(自然科学版)2023年其中必不可缺的一个环节,而准确定位线号则是识别线号的必要前提。由于电缆线号图像是从工业环境中提取出来的,受到工业车间的光照变化、空气粉尘等因素的影响,获取的图像的质量不高。因此如何准确定位出电缆线号区域成为难点。为了解决上述一些存在的问题,将机器视觉引入到电缆线号的检测中。目前针对线号字符定位问题,主要解决方法分为两大类。第一类为传统的基于图像处理的检测方法,其中有基于边缘特征的检测1、图像形态学2与最大稳定极值区域(MSER)3的方法等;对于传统图像处
9、理方法而言,其原理简单,但易受环境和图像噪声的影响,普适性和鲁棒性较差。第二类为基于深度学习的定位检测方法,包括基于支持向量机(SVM)4、单阶段目标检测算法 YOLO5、SSD6、两阶段目标检测算法Faster R-CNN7等。两者相比较,单阶段算法可一次性分类回归,但精度不够、误检率较高,而两阶段算法需多次回归,但检测精度较高,对于深度学习方法来说,其定位效果强,泛化能力好,具有很高的鲁棒性。由于线号精确定位是线号正确识别的必要前提,而且电缆线号属于小目标检测,因此模型需保证检测精度的高要求。文章基于精度较高的 Faster R-CNN 算法提出了一种小目标电缆线号检测模型,此模型采用 R
10、esNet-50 网络,利用其中的残差连接结构在不断卷积过程中保留特征。使用特征金字塔网络8-9获取多尺度特征进行特征融合,加强特征层间的信息传递。真实的电缆线号的环境是复杂多变的而且干扰较多,受到文献 10 13 中通过加入注意力机制减少干扰因素的影响,从而减少误判率的启发,文章网络中通过引入多头自注意力机制 MHSA14,增强了模型的检测精度,提高了模型的特征提取能力。该模型检测准确率高,鲁棒性能好,能够解决大多恶劣条件下电缆线号字符的定位问题。对于目前工业环境中的小目标电缆线号进行检测分类,从而有效提升电缆产业自动化水平。实验结果表明:所提方法的检测精度达到 99.2%,经过大量实践调研
11、,文中所提方法在工业环境中的电缆线号检测任务中,既能够完全满足电缆线号的高精度检测要求,同时也能满足实际应用中的实时性要求,模型整体性能均可满足实际在线实时检测应用的需求。1网络介绍1.1方法介绍电缆线号定位模型大致流程如图 1 所示,电缆线号相对于表面有着较明显的纹理、颜色等特征15-17,传统图像处理方法能够提取这些特征信息,但是稳定性差,极易受到环境和光照的影响。电缆线号在工业环境下往往呈现小目标的表现方式,要完成工业自动化对线号进行识别,精确定位小目标线号区域是必要前提。文中提出的电缆线号检测方法采用多尺度融合的方法,使用 ResNet-50 作为骨干网络提取不同层的特征图C1,C2,
12、C3,C4,C5,低、高层特征图获取线号区域的纹理和语义信息。结合特征金字塔网络(FPN),生成P2,P3,P4,P5,P6尺度特征图。增强对小目标线号的检测准确率。在网络中引入多头自注意力结构(MHSA),提高对目标区域的注意力,减小对不重要区域特征的关注度,同时减少复杂环境干扰所引起的误检,提高准确率与召回率,取得更好的检测效果。图 1模型流程图1.2字符定位算法研究通过对目前常用的定位检测算法进行研究组合从而选用最合适的线缆线号检测算法,将Faster R-CNN的backbone从VGG-16改为Resnet-50。因为线缆中线号的定位识别为小目标检测分66类,而 VGG 网络通过不断
13、卷积会逐渐丢失特征信息,Resnet 网络在卷积之后的特征图会通过和之前层做特征运算保留之前特征图的图像特征,从而在保证网络深度足够的情况下也不会导致特征信息的丢失。如图 2 所示,其中X为输入,F(X)为残差函数。图 2Faster R-CNN 图像定位算法1.3ResNet-50 结合 FPN 特征金字塔网络ResNet 相比 VGG 的优势在于其层数更深、有更大容量去学习所需要的特征信息,对于小目标的检测尤为可观。而且 ResNet 网络在使用残差连接和批量归一化的方法之后更加易于训练。对于电缆线号定位而言,网络的加深更易在干扰影响较大的情况下准确检测目标。ResNet通过堆叠残差结构,
14、可有效解决由于网络的加深而引起的梯度爆炸和梯度消失问题。图 3 为FPN 残差结构图。图 3FPN 残差结构特征金字塔(FPN)的组成为自底向上、自顶向下和侧向连接三个过程,这种方式能够有效加强特征层之间的信息传递,既能提取线号目标的语义信息又能保留其细节信息。能够将不同的层级特征进行融合以得到更加丰富的语义信息。如图 3 所示,在残差网络中通过卷积层Conv2Conv5 对输入的图像进行自底向上特征提取,划分为 C1C5 五个阶段,每个阶段输出相应的底层特征图并进行 11 卷积得到 256 维的特征图,接着进行两倍上采样与浅层自上向下融合,将横向连接融合后的特征图与 256 个 33 的卷积
15、核进行运算,减少融合过程中出现的混叠情况,对 P5 特征图进行步长为 2 的最大池化下采样得到 P6,最后一共得到 P2P6 特征图。1.4引入多头自注意力机制(MHSA)多头自注意力机制(MHSA)是指多个自注意力(Self-Attention)结构的组合,每个头(head)学习到在不同表示空间中的特征,伴随卷积网络的不断加深,更容易关注到全局的信息。多头自注意力机制的结构如图 4 所示。处于中心位置的 Scaled Dot-product Attention是普通Attention的变体,给定矩阵Q Rn d,K Rn d,V Rn d,Q、K、V均是由词向量构成的矩阵,当Q=K=V时为自
16、注意力机制,其中d表示神经网络 单 元 隐 藏 神 经 元 的 个 数,Scaled Dot-productAttention 的计算公式为:Attention()Q,K,V=softmax()QKTdV(1)图 4多头自注意力机制结构韩境和,等:基于改进Faster R-CNN的小目标电缆线号定位模型第1期67长春理工大学学报(自然科学版)2023年多头自注意力机制是对初始的Q,K,V做多次的 线 性 映 射,将 每 次 映 射 得 到 的 结 果 输 入 到Scaled Dot-product Attention 中,每次得出的结果称其为一个头(head),多头自注意力的公式为:MutiHead()Q,K,V=Concat()head1,head2,headn(2)headi=Attention()QWiQ,KWiK,VWiV(3)MHSA 分别先将Q、K、V进行线性升维,然后对每个“头”并行做SA,总共H个“头”,最终将结果拼接在一起。MHSA 的时间复杂度如下:TMHSA=max()O()LD+()D?H,O()SD+()D?H+2O()LSD?+()H(4)式中,(D?H)表