基于深度学习的视频SAR动目标检测与跟踪算法

资源描述

1、第卷，第期自然资源遥感，年月，：引用格式：邱磊，张学志，郝大为基于深度学习的视频动目标检测与跟踪算法自然资源遥感，（）：（，（）：）基于深度学习的视频动目标检测与跟踪算法邱磊，张学志，郝大为（海军工程大学兵器工程学院，武汉；陆军工程大学军械士官学校雷达系，武汉）摘要：视频合成孔径雷达（，）技术被广泛应用于军事侦查、地质勘探和灾害预测等领域。由于视频存在很多的相干斑（）噪声以及镜面反射、叠掩效应等干扰因素，运动目标容易与背景或其他目标混淆在一起。针对上述问题，文章提出了一种有效的视频目标检测与跟踪算法。首先，提取视频的多个特征用于构造多通道特征图；然后，使用改进

2、的轻量网络对更深层的特征进行提取，从而在兼顾算法效率的同时提升目标检测的准确度；最后，采用基于目标检测框的轨迹关联策略对视频中同一目标进行关联。实验表明，本研究提出的方法针对阴影目标检测与跟踪任务取得了较好的效果。关键词：视频；特征增强；目标检测；深度学习；特征金字塔；多目标跟踪中图法分类号：文献标志码：文章编号：（）收稿日期：；修订日期：第一作者：邱磊（），男，硕士，讲师，研究方向为雷达工程、火力指挥与控制工程。：。引言遥感目标跟踪在军事、环境、资源、气象和农业等多个领域有广泛应用。视频合成孔径雷达（，）通过向地面发射电磁波信号获取地表物体的反射信息，从而对动目标进行连续成像。相较

3、于传统的可见光影像和其他遥感影像，视频受光照和气候条件影响较小，特别适合雨、雪、雾和夜间的任务作业。同时，视频还具备一定的穿透效果，在有云层和植被遮挡的情况下仍然能对目标进行成像。因此，通过分析视频，对地面运动目标进行检测跟踪，比一般光学遥感数据有更广泛的适用场景。在目标检测方面，林旭等提出了一种基于自适应背景杂波模型的恒虚警率（，）宽幅图像舰船检测算法。通过背景窗口的多尺度统计方差判断目标所处的杂波环境，自适应选择对应的背景杂波分布模型；等提出了一种结合目标语义特征的恒定虚警法，在检测高分辨率图像目标时具有更低的虚警率；利用扩展分形（，）特征检测图像中的车辆目标，该特征不仅对目

4、标背景的对比度敏感，同时也对目标尺寸敏感；刘冬等利用指数小波分形特征检测图像目标，该方法对目标对比度和尺寸敏感，且考虑了目标边缘特征与区域内部平滑性特征。近年来，随着深度学习的发展，基于卷积神经网络（，）的图像目标检测方法受到了广泛关注。，和等目标检测网络被广泛应用于对图像的检测。等提出了结合上下文的检测方法检测图像舰船目标，利用目标周围的背景信息提高检测结果的可靠性，减少了虚警；等使用最大稳定极值区域（，）准则进一步约束目标区域的判定；等用（一种旋转边界框）取代传统矩形框标记目标，使得标记选框可以适应不同的目标朝向；张椰等将目标检测任务转化为像素分类问题，利用全卷积神经网络（，）

5、对图像进行像素级的分类，有效避免了背景杂波的干扰，降低了虚警率。在视频目标跟踪方面，等研究了目标的阴影对视频序列中低雷达散射截面（，）目标跟踪的积极影响；等提出了一种基于的阴影检测器来提取阴影信息作为定位运动目标的线索；等和等利用核化相关滤波器（，）和自然资源遥感年跟踪器对第一帧目标初始化后的阴影进行定位；等采用尺度不变特征变换（，）和随机样本一致性（，）配准算法来补偿每帧背景的变化，并采用了一种称为最大化熵的阈值分割算法，利用三帧差分法对背景差分进行阴影检测；等提出了一种基于图像统计和多目标卡尔曼滤波的目标跟踪方法；等采用改进的基于密度的聚类算法对每一帧检

6、测结果进行过滤，并利用设计的双向长短期记忆（，）网络抑制检测中的缺失报警；等提出了一种基于时空信息和基于显著性的检测机制来对抗干扰和背景杂波。近年来，国内对该问题的研究也越来越多。何志华等利用视频帧图像空间域和时间域信息，经过数据配准和相干斑滤波预处理、采用基于改进差分的动目标阴影检测处理和多目标跟踪处理技术，在保证检测率的前提下尽量降低虚警率，实现了视频动目标检测与跟踪；刘雨洁等融合航迹起始算法与舰船图像特征差异进行长时间间隔序贯图像间的目标匹配，根据速度和加速度设置约束波门，对舰船目标的不同特征设置不同的权值计算目标间的差异，利用差异最小原则筛选航迹，实现目标跟踪；胡瑶提出了基于改进的

7、无锚点多目标跟踪框架，引入了注意力机制、修改了损失函数并进行了网络结构的优化，进而提升了跟踪效果。然而，现有工作对于图像自身特征的挖掘尚不充分，目标跟踪受到信号强度、障碍遮挡和运动模糊等因素影响较大。这启发本文设计更好的特征表达网络和轨迹关联算法。针对上述问题，本文提出了基于深度学习的目标检测与跟踪方法。首先，提取出目标的显著特征用于视频动目标检测。由于视频成像机制与可见光成像不同，视频具有其特有的属性。为此，本文分析了视频的统计分布特征、极化散射特征、纹理特征和几何特征等多种特征。通过实验发现，增强图像对比度、纹理均值特征、开运算特征、闭运算特征，作为模型的先验输入，能够提升检测效

8、果。其次，设计了更适合于视频检测的多尺度特征金字塔和特征融合策略，使不同尺度特征之间的融合更加高效便捷。本文提出使用轻量级网络对图像进行检测，并进一步采用网络对当前帧上未检测到的目标进行预测。通过分析不同帧下所有锚点框之间的距离关系，为不同目标设置不同的轨迹信息进行轨迹关联，该轨迹优化策略显著提升了视频目标的跟踪效果。多通道特征图目标检测方法在本小节中，详细介绍了提出的目标检测方法。首先，用多通道特征图构建特征集，对图像进行特征增强；其次，在深度特征提取阶段，介绍了改进后的多尺度特征金字塔；接下来，基于上述特征，介绍了采用的轻量目标检测模块；然后，分别介绍了种目标轨迹关联方法，即

9、基于目标框的轨迹关联和基于的轨迹关联。多通道特征图特征增强在对目标进行提取之前，进行特征集构建。特征集中的特征从个方面来考虑：一方面是去除图像噪声；另一方面增强目标与周围地物的差异。对于视频数据的单帧图像，在选取合适的去噪滤波后，进行特征计算。本研究选用滤波去除噪声，窗口为，在去除噪声后，选取个影像特征和滤波后影像作为特征集。这个特征分别是：开运算、闭运算、对比度增强、纹理均值特征。其中，对比度增强采用直方图均衡化方法，纹理均值特征使用基于灰度共生矩阵（，）的纹理特征。特征集构建的流程如图所示。图特征分析流程改进型多尺度特征金字塔该阶段以自底向上（）的多层级语义特征图为输

10、入，利用上采样和横向连接的方式构建自顶向下（）的多尺度特征金字塔，为多尺度阴影目标检测提供有力基础，目标检测总体结构如图所示。图中表示网络卷积层得到的特征图，表示特征金字塔中的特征图。第期邱磊，等：基于深度学习的视频动目标检测与跟踪算法图多尺度特征金字塔网络模型结构）自底向上。该过程由主干网络前馈计算而来，其每个阶段最后一层的输出构成金字塔的多个层级，层级间以为缩放比例。）自上向下。由于视频中有相当部分的阴影目标尺度较小，且有一定尺度差异，因而对网络的尺度适应性也提出更高要求。考虑到在经典特征金字塔网络结构中，小尺度目标的识别主要依赖于金字塔低层中空间分辨率较高的特征图

11、层，因此本文选择在经典特征金字塔网络的基础上，以多尺度特征融合的形式将高维特征图中的语义信息注入至低级特征图中，从而进一步提升网络对小尺度阴影目标的检测能力。多尺度特征融合结构如图所示。图多尺度特征融合的结构具体而言，多尺度特征融合处理中和的特征可通过式（）更新，即（）（），（）式中：和分别为卷积网络和特征空间金字塔的层号索引；为对应的融合特征映射；（）为卷积运算；为卷积核大小，（）为最邻近上采样；为特征连接操作。本文采用卷积对进行降维，并采用卷积消除上采样带来的混叠效应。此外，考虑到视频中的阴影目标尺度多元，除了大量小尺度目标外，还存在大尺度目标，因此，本文在高维特征

12、图的基础上通过取步长为进行下采样得到特征图，以在后续目标检测过程中为不同尺度目标提供特定的特征图。为了进一步确保模型效率，令金字塔具体层数与检测目标尺寸相对应。基于轻量的目标检测以多尺度特征金字塔为输入，将在各个尺度特征图上以一定步长逐像素生成多种锚点框，该框的生成过程与区域候选网络（，）类似，并针对每个锚点框完成分类和框回归任务。）锚点框生成。该过程与生成锚点框过程类似。为防止不同尺度目标框之间存在重叠现象且保证效率，为不同尺度特征图依次分配单一的锚点框面积超参数，以促使各特征图能在尺度上具有专一性。对于每个锚点框，若与真实标记框交并比大于被视为正样本，小于被视为负样本，）的锚

13、点框则被丢弃，以使模型回归更加准确的锚点框。）分类和框回归。该过程用于预测个锚点框和类在每个空间位置存在目标的概率及与真实地表之间的偏移量。具体而言，使用若干的卷积层对多尺度特征金字塔的逐像素同时进行的类别预测及的分类回归，个任务参数相互独立。在本研究中取，分类回归中的代表中心点横纵坐标和锚点框宽高的偏移量。在训练阶段，本研究采用多任务损失函数，包含检测框回归损失和目标检测损失，以使网络达到端到端的学习，提高分类性能，定义为：（，）（，）（，），（）自然资源遥感年（，），（）（，）（），（）式中：为损失函数；和分别为目标类别和包围框的个数；为每次小批量（）中的第个锚

14、点框；为前景和后景的对数损失，为每一个锚点框属于目标的预测概率，时代表对应样本为正样本，时代表对应样本为负样本。为目标锚点框的回归损失；为对每个样本的预测目标锚点框的坐标参数；为样本对应的真是锚点框的坐标参数；为范数形式的平滑项损失，定义如。由式（）可以看出，当时，对应样本为正样本时回归框损失才有意义，时，对应样本为负样本时则没有回归框损失。基于目标检测框的轨迹关联以目标检测框为输入，最初通过计算上一帧与当前帧所有目标检测框的交并比来判定轨迹关联信息。然而，研究发现仅通过交并比来判定时，会出现轨迹关联不稳定、轨迹编号迅速变化的现象。通过对轨迹关联进行优化能够有效抑制轨迹信息的快速变化。轨

15、迹关联模块如图所示。图轨迹关联模块轨迹信息初始化：将每帧中所有正确检测框和误报检测框的中心坐标表示为（，），和，其中和表示每帧的像素大小。通过测量上一帧与当前帧每个检测框的交并比判定是否为同一轨迹，对同一轨迹的目标设置相同的轨迹关联信息，作为时序上的关联。存储目标从起始帧到当前帧的轨迹信息，包括轨迹的编号、起始帧、持续帧数和锚点框尺寸。每检测一帧，则通过计算交并比来判定上下帧距离相近的检测框是否为同一目标轨迹，若当前帧检测到的与上一帧某一目标检测框交并比大于一定阈值，则判定为同一轨迹，赋予相同轨迹信息。若交并比小于一定阈值，判定为不同目标轨迹，赋予不同轨迹信息。当目标比较集中时，

16、可能当前帧存在多个目标与上一帧同一个检测框有较大的重合部分，则在其中选择交并比最大的目标作为轨迹延续。若对于上一帧的某一目标，在当前帧未能找到与其重合部分较大的检测框，说明该目标未被检测到或已离开。若当前帧存在目标未被检测到则在后面的几帧会再次出现，因此需要对这些消失的轨迹进行记录。对于所有中断的轨迹，若连续帧未检测出能够与其连接的目标，则判定该目标已从当前视频中离开，从存储中断轨迹的字典结构中移除。对于当前帧初始化后新出现的轨迹，与所有被记录的消失轨迹最后一帧进行判定，两两之间距离小于像素阈值且距离最短的判定为同一条轨迹。对于当前帧初始化后新出现的轨迹，若不存在消失轨迹与其距离相近，则判定为新的轨迹。真实阴影目标的运动具有连续性，若轨迹只出现了或帧，即长度小于帧，则判定该轨迹不具有连续性，将其轨迹信息剔除。基于网络的同步目标轨迹预测是一种双向的长短期记忆网络（，），它同时考虑了时序的正向信息和反向信息。该网络由一个前向时序传播层和一个反向时序传播层组成。通过正向与反向循环神经网络获得每个时间节点的权重，最后由一个全连接层合并所有权重得到输出。结构如图所示。因此在本项目

展开阅读全文

基于深度学习的视频SAR动目标检测与跟踪算法_邱磊.pdf