1、 传感器与微系统()年第卷第期檸檸檸檸檸檸檸檸檸檸檸檸殠殠殠殠计算与测试:()基于注意力与特征融合的双分支跟踪算法胡银记,洛怡航,赵振宇,揭斐然,彭群聂(光电控制技术重点实验室,河南洛阳;中国航空工业集团公司洛阳电光设备研究所,河南洛阳)摘要:针对全卷积孪生网络()特征表达不足导致在目标形变、复杂背景干扰条件下跟踪效果不佳等问题,提出了一种基于注意力与特征融合的双分支跟踪算法。通过引入通道注意力机制和小卷积核的思想,在增加网络深度的同时,动态调节模型权重,提高了网络的特征提取能力和辨别能力。在原有孪生网络的基础上,提出采用多层特征融合策略构建新的跟踪分支并用于辅助决策。通过不同视觉层级间目标特
2、征的融合,进一步改善网络的精确定位与适应能力。在目标跟踪基准库、进行试验,试验结果表明:所提算法在保持实时性的情况下,性能指标优于多个基准算法,验证所提算法的有效性。关键词:目标跟踪;孪生网络;特征融合;注意力机制中图分类号:文献标识码:文章编号:(),(,;,):(),:;引言目标跟踪是计算机视觉的一个重要研究方向,其广泛应用于视频监控、自动驾驶 等领域中。目前跟踪方法主要可以分为基于相关滤波和基于深度学习的跟踪算法。相关滤波 算法的特点是效率高、速度快,主要根据信号间的相关性找到最大响应位置并将其作为跟踪目标。然而相关滤波算法,一般使用手工设计的特征,精度较低,当目标出现形变、遮挡等问题时
3、,容易跟踪失败;基于深度学习 的方法通过卷积操作进行特征提取,每一步卷积操作都可以得到不同层次的特征信息,越深层的网络提取到的信息越丰富,模型的抗干扰能力越强,但网络的加深也会导致计算量大量增加,无法满足实时性要求。孪生网络因其平衡了速度和精度之间的关系引起人们的广泛关注。等人提出的方法通过在图像中生成多个候选目标,经过特征提取网络后与模板图像进行比较选择距离最小的候选目标,开创性地将目标跟踪问题转化为匹配收稿日期:第期胡银记,等:基于注意力与特征融合的双分支跟踪算法问题。全卷积孪生网络(,),在此基础上,训练了一个端到端的离线深度网络,通过相关操作获得一个单通道响应图,根据响应大小判断目标位
4、置,其在保持实时性的同时,精度也有很高的提升。()将检测算法引入到跟踪上,使用尺度回归代替多尺度检测,极大提高了跟踪速度。()通过构建正、负样本对提高了模型的泛化能力,并当目标丢失时,提出一种局部到全局的搜索策略重新搜索并跟踪目标。尽管的跟踪算法已经取得了显著进步,但是当出现相似背景干扰、目标形变等情况时,往往因为目标特征信息不足,一些背景干扰信息也能产生较大响应,影响跟踪效果。分析认为主要原因如下:首先,其主干网络是,网络层数较浅,特征提取能力较弱;其次,不同场景下,各通道产生的特征图等信息的重要性是不同的,在跟踪过程中,只有少数通道具有高响应图。原始网络却将不同的通道赋予同样的权重,降低了
5、网络的辨别能力;最后,往往将最后一层的输出作为目标的特征,最后一层语义信息相对丰富,有较强的鲁棒性,但缺点是空间分辨率较低,对细节信息不够敏感。针对以上问题,本文主要做了个方面的工作:)为了提高模型的特征提取能力,在不加入的情况下,采用小卷积核的思想扩充网络深度;)引入注意力机制,动态调节模型权重,提高网络的辨别能力;)将不同卷积层的特征进行融合,提升网络模型对目标语义信息和细节信息的表达,并将融合后的特征用于构建新的跟踪分支,与原分支共同决策目标位置,提高跟踪性能。的结构如图所示,其中为模板图像,为搜索图像。它们通过同一特征提取网络进行特征提取,将提取到的特征进行相关操作,输出一个相关性得分
6、图,得分高的就是要跟踪的目标。的特征提取网络为网络,相似度计算公式表达为(,)()()()式中()、()为经过特征提取网络的输出,为相关运算,损失函数采用损失函数,公式表达为(,)()()式中 为二维置信图中的特征值,为标签数据,且,。相似度决策会对候选图像中多个不同的区域进行相似度度量,输出一个二维置信图。假设置信图中有个不同的特征值,则整体网络的损失为个损失的均值,即(,)(,)()为了使损失函数(,)最小化,采用随机梯度下降()算法来获得网络参数,数学表达式为,(,(,;)()1717122222562552553X*662561271273Z渍渍图 算法原理本文算法网络框架在中,通常将
7、网络深层的语义信息作为输出特征。这些语义信息丰富的特征具有很强的鲁棒性和抗干扰能力。但深层的语义信息与浅层信息相比,空间分辨率低,对颜色、纹理等细节感知能力差。浅层信息空间分辨率高,含有丰富的细节信息,对目标的精确定位十分有用。网络在训练与跟踪过程中,不同场景的目标对各个通道的响应亦不同,有效地学习到不同通道特征的重要性,将极大提高网络的判别能力。基于此,本文提出了一种基于注意力与特征融合的双分支跟踪算法。算法框图如图所示。Conv10Conv1Conv7输出特征点积深度卷积点积深度卷积池化输入特征Down输出特征双线性插值DeconvDeconv输入特征UPConv10Conv9CAConv
8、8Conv7Conv1Conv8CAConv9UPDownAdd6*6图本文算法原理 本文通过小卷积核的思想扩充网络层数,并引入通道注意力(,)机制动态调节模型权重,产生通道的权重系数,以此赋予各个通道不同的重要程度。同时为丰富输出层()的特征信息,通过模块操作实现了不同卷积层特征融合,融合后特征相对于深层的语义信息还有大量的细节信息,将融合后的特征进行下采样()操作,产生一条新的模板分支,将条模板分支分别与搜索分支进行相关运算,将得到的个响应图加权求和,共同决定最后的跟踪结果,实现不同特征之间的自适应融合,改善跟踪效果。在跟踪过程中,是以目标输出特征为卷积核进行相关运算的,网络应具有严格的平
9、移不变性,一些深层的特征提取网络如,虽然特征提取能力很强,但通过保证输出特征维度不变的操作,在没有方案改进的情况下,会导致位置偏差,跟踪精度反而下降。原因为在边界进行相关运算时,在没有操作的情况下,模板图像在边界时分别与搜索图像和其偏移一定距离后的搜索图传 感 器 与 微 系 统第卷像进行相关运算后,响应大小是相同的,位置与偏移方向一致。在有填充操作时,模板图像和搜索图像都会在原来基础上包含大量的填充信息,在进行相关运行时,相同的物体在偏移后的响应却不同,导致回归框发生偏移,影响跟踪效果。为了防止影响,主干网络仍采用,不过通过小卷积核思想增加网络深度,提高网络的特征提取能力,并在每一个卷积操作
10、之后,增加个层和激活函数,在进行非线性操作的同时,也能够防止梯度爆炸和梯度弥散。修改后的如表所示。表修改后的架构卷积层卷积核(,)步长 卷积层 卷积核(,)步长(,)(,)(,)(,)(,)(,)(,)(,)(,)(,)(,)(,)(,)机制机制本质是通过神经网络学习一组权重系数突出感兴趣的信息并且抑制无用信息的方法。在跟踪过程中,只有少数通道与目标具有高响应,原始方法却将不同的通道赋予相同的权重,这样限制了网络的特征表达能力。为了动态的调节每个特征通道的权重,本文在第层引入了机制,原理框图如图所示。CA共享多层感知器平均池化输入特征最大池化图 原理框图 输入是一个 的特征,首先,用平均池化和
11、最大池化聚合输入特征图的信息,生成个 的通道信息和。然后,将其传到共享神经网络,共享网络有层神经网络组成,第一层神经元个数为,第二层神经元个数为,为缩放因子,激活函数为,在经过共享网络之后,使用元素求和法合并网络输出的个特征向量,在经过个函数产生权重系数 ,其计算方式为()()()()()()式中 为函数,而且权重和为输入共享的。通过得到的通道权重系数与原来的特征相乘就能得到调节后的新特征,赋予各个通道不同的权重,突出有用信息,增强网络模型的判别能力。特征融合在跟踪过程中选择网络最后一层作为输出层以此获取鲁棒性高的语义信息。但是再丰富的信息也无法适应所有情况,每一层的特征信息在不同场景下都会起
12、到不同的效果。实现多个特征之间的融合就可能在各个方面获得平衡。为了丰富目标的特征信息,本文将后的 特征图通过次反卷积操作、双线性插值得到与操作后相同空间大小的 特征图,将这个特征图进行逐元素相加,得到融合后的特征。与原始的单一特征相比,融合后的特征具有更加丰富的特征信息,在面对复杂的背景变化时,有更强的判别能力和抗干扰能力。将融合后的特征通过下采样、两层深度可分离卷积生成新的目标分支。在面对相似背景、形变等干扰时,将产生的新目标分支和与原目标分支分别与搜索分支进行相关操作,将输出的得分响应图加权求和。这样通过利用不同分支的特征信息,区别不同目标可能需要的不同特征。在保留语义信息的同时,提供定位
13、信息,减少跟踪丢失次数,提高跟踪性能。本文使用符号()表示不同的通道的目标特征,目标模板分别表示为(),(),分别与搜索图像()进行相关操作,最终的得分图由个分支加权求和得到(,)(,)()(,)()式中 为超参数,当设置为 时,跟踪效果最佳。仿真实验与结果分析在离线训练阶段,本文使用视频目标跟踪数据集训练。包含了超过 条视频,人工标注边界框超过万个,有种运动模式,个目标类别,并且包含目标形变、遮挡、目标快速移动、背景干扰等各种复杂场景,是当前用于跟踪训练的常用目标跟踪数据集。训练时每次随机挑选样本对,迭代次数为次,每次小批量训练样本数为,采用动量为 的随机梯度下降优化网络。为了解决尺度变换问
14、题,在搜索图像上采用个不同的尺度缩放因子 ,去搜索图像。本文算法的操作系统为,为 ,为。软件环境配置为,。本文模型在跟踪过程中平均速度为,满足实时性要求。()是年由吴毅等人提出,是目标跟踪领域广泛使用的测试集基准库,由个人工标注的视频序列帧组成。是在的基础上由个人工标记的视频帧增加到个视频帧,包含目标遮挡、形变、光照影响、背景干扰等种不同的属性。该数据集有个评估指标:准确率和成功率。准确率第期胡银记,等:基于注意力与特征融合的双分支跟踪算法为标注的目标中心与算法跟踪到目标的中心误差在一个特定阈值内的帧数占总帧数的百分比,成功率用边界框的重合率进行表示。、基准库上不同算法的对比结果如图、图所示。
15、5040302010020406080阈值CSK0.413ASLA0.433CXT0.446TLD0.472SCM0.484STRUCK0.541MEEM0.684MUSTer0.704SiamFC0.807本文0.831CSK31.41CXT32.06ASLA33.27TLD33.40SCM36.77STRUCK38.40MEEM45.84MUSTer51.88SiamFC60.30本文61.701.00.80.60.40.20020406080阈值精度/%序列平均图 测试集下各算法的性能对比50403020100阈值CSK0.520ASLA0.513CXT0.553TLD0.577SCM0
16、.569STRUCK0.639MEEM0.764MUSTer0.767SiamFC0.791本文0.820CSK38.49CXT41.29ASLA40.91TLD40.62SCM44.58STRUCK46.17MEEM52.41MUSTer57.14SiamFC59.09本文61.091.00.80.60.40.20020406080阈值序列平均20406080精度/%图 测试集下各算法的性能对比 评估结果显示本文跟踪算法相比于传统的算法跟踪性能有了显著提高,并且相对于在、数据集上精度分别提高了 个百分点和个百分点,在成功率方面提高了 个百分点和个点百分点。()是一个针对单目标跟踪的主流测试平台。每年更新一次测试序列,标注精度也逐年提高,其评价标准为准确率()、鲁棒性()和平均期望重叠(,)率,其测试如表所示。表 数据集下算法性能对比算法准确率鲁棒性 本文 评估结果显示本文算法相比于常用的基准算法有很强的竞争性,在与基础上分别提高了 个百分点和 个百分点。图可视跟踪结果表明,当目标出现形变、复杂背景干扰时,辨别能力不足导致跟踪失败,而本文的跟踪算法依然精准有效的跟踪目标,进一步验证本文