1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):661-673ISSN 10019081CODEN JYIIDUhttp:/基于孪生网络的单目标跟踪算法综述王梦亭,杨文忠*,武雍智(新疆大学 信息科学与工程学院,乌鲁木齐 830046)(通信作者电子邮箱ywz_)摘要:单目标跟踪是计算机视觉领域的一个重要研究方向,在视频监控、自动驾驶等领域应用广泛。对于单目标跟踪算法,尽管已有大量总结研究,但大多基于相关滤波或深度学习。近年来,基于孪生网络的跟踪算法因在精度和速度之间取得的平衡受到研究者们的广泛关注,然而目前对该类型算法的总
2、结分析相对较少,并且对这些算法的架构层面缺少系统分析。为深入了解基于孪生网络的单目标跟踪算法,对大量相关文献进行了总结与分析。首先阐述孪生网络的结构和应用,并根据孪生跟踪算法架构组成的分类介绍了各跟踪算法;然后列举单目标跟踪领域常用的数据集和评价指标,对25个主流跟踪算法在OTB2015数据集上分别进行整体和各属性的性能比较与分析,并列出23个孪生跟踪算法在LaSOT和GOT-10K测试集上的性能以及推理时的速度;最后对基于孪生网络的目标跟踪算法的研究进行总结,并对未来的发展方向进行展望。关键词:孪生网络;单目标跟踪;计算机视觉;互相关;无锚框中图分类号:TP181;TP391.41 文献标志
3、码:ASurvey of single target tracking algorithms based on Siamese networkWANG Mengting,YANG Wenzhong*,WU Yongzhi(School of Information Science and Engineering,Xinjiang University,Urumqi Xinjiang 830046,China)Abstract:Single object tracking is an important research direction in the field of computer vi
4、sion,and has a wide range of applications in video surveillance,autonomous driving and other fields.For single object tracking algorithms,although a large number of summaries have been conducted,most of them are based on correlation filter or deep learning.In recent years,Siamese network-based track
5、ing algorithms have received extensive attention from researchers for their balance between accuracy and speed,but there are relatively few summaries of this type of algorithms and it lacks systematic analysis of the algorithms at the architectural level.In order to deeply understand the single obje
6、ct tracking algorithms based on Siamese network,a large number of related literatures were organized and analyzed.Firstly,the structures and applications of the Siamese network were expounded,and each tracking algorithm was introduced according to the composition classification of the Siamese tracki
7、ng algorithm architectures.Then,the commonly used datasets and evaluation metrics in the field of single object tracking were listed,the overall and each attribute performance of 25 mainstream tracking algorithms was compared and analyzed on OTB 2015(Object Tracking Benchmark)dataset,and the perform
8、ance and the reasoning speed of 23 Siamese network-based tracking algorithms on LaSOT(Large-scale Single Object Tracking)and GOT-10K(Generic Object Tracking)test sets were listed.Finally,the research on Siamese network-based tracking algorithms was summarized,and the possible future research directi
9、ons of this type of algorithms were prospected.Key words:Siamese network;single target tracking;computer vision;cross-correlation;anchor-free0 引言 目标跟踪源于计算机视觉,以图像、视频数据为基础,融合了图像处理、模式识别、人工智能、自动控制等多个领域,在安防监控1-3、智能交通4、自动驾驶5、人机交互6、自主机器人7、运动8、海洋探索9等领域广泛应用。视觉目标跟踪按照跟踪物体的数量分为单目标跟踪和多目标跟踪,本文主要介绍单目标跟踪。单目标跟踪指给定第一
10、帧用边界框标记的感兴趣目标后,在视频的后续帧中自动给出目标的位置和形状,如图1所示。在标注感兴趣行人(矩形框内的人)后,跟踪算法逐帧地找出监控视频下该行人的位置。在给定边界框的情况下,跟踪算法需要面对光照变化、快速运动、遮挡、目标形变、背景干扰、尺度变化等挑战,而且随着时间跨度的增长,这些挑战会进一步放大,因此开发一种高精度、鲁棒性和实时性的跟踪算法充满挑战性。为了应对这些挑战,研究者们已经提出了许多优秀的目标跟踪算法。目前的目标跟踪算法根据工作方式分为基于相关滤波和基于深度学习的跟踪算法。基于相关滤波的跟踪算法可进一步分为传统的相关滤波算法和结合深度特征的相关滤文章编号:1001-9081(
11、2023)03-0661-13DOI:10.11772/j.issn.1001-9081.2022010150收稿日期:20220211;修回日期:20220428;录用日期:20220505。基金项目:新疆维吾尔自治区科技重大专项(2020A02001-1);新疆维吾尔自治区科技计划项目(202104120007);江西省自然科学基金资助项目(20202BAB202023)。作者简介:王梦亭(1995),女,河南周口人,硕士研究生,主要研究方向:单目标跟踪、计算机视觉;杨文忠(1971),男,河南南阳人,副教授,博士,CCF会员,主要研究方向:图像处理;武雍智(1995),男,甘肃张掖人,硕
12、士研究生,主要研究方向:行人重识别、计算机视觉。第 43 卷计算机应用波算法10;基于深度学习的跟踪算法可进一步分为基于孪生网络的算法和其他算法。表 1列出了不同类型的经典算法使用的特征和它在OTB2015数据集上的成功率图中的曲线下面积(Area Under Curve,AUC)及帧率。可以看出,KCF(Kernelized Correlation Filters)11和FDSST(Fast Discriminative Scale Space Tracker)12等传统相关滤波算法使用手工设计的特征(灰度、颜色(Clolor Names,CN)、方向梯度直方图(Histogram of O
13、riented Gradient,HOG)等)进行目标描述,特点是速度快,可以在中央处理器(Central Processing Unit,CPU)上实时运行,但精度一般。相较于手工提取的特征,卷积神经网络(Convolutional Neural Network,CNN)提取的特征更具鲁棒性,包含更多的语义信息。DeepSRDCF(Deep Spatially Regularized Discriminative Correlation Filters)13 和 ECO(Efficient Convolution Operators for tracking)14等结合深度特征的相关滤波算法
14、使用在图像分类数据集中预先训练好的CNN的特征,精度大幅提高,但因提取特征耗费了大量时间,在图形处理器(Graphics Processing Unit,GPU)上实时性较差。随着深度学习的进一步发展和大型跟踪数据集的建立,出现了许多基于深度学习的跟踪算法。MDNet(Multi-Domain Network)15等其他深度跟踪算法性能虽好,但需要在线使用随机梯度下降以适应网络的权值,严重影响了系 统 的 运 行 速 度。SiamFC(Fully Convolutional Siamese network)16和 SiamRPN(Siamese Region Proposal Network)
15、17等基于孪生网络的跟踪算法因特殊的网络结构,在精度和速度之间取得了很好的平衡,受到研究者的广泛关注。本文将详细介绍基于孪生网络的跟踪算法,并根据现有的不足讨论该研究方向的发展趋势。1 孪生网络的结构和应用 孪生网络结构如图 2所示,由双网络组成,这两个网络的输入不同,但结构一般相同,并且参数共享,即参数一致。孪生网络结构的主要思想是找到一个可以将输入映射到目标空间的函数,使目标空间中的简单距离近似于输入空间的“语义”距离。更准确地说该结构试图找到一组参数,使相似度度量在属于同一类别较小,在属于不同类别时较大。孪生网络结构另一个特点是可以自然地增加训练数据量,即每次输入一对图像。这样就可以充分
16、利用有限的数据集来训练网络,这一点在目标跟踪领域非常重要,因为和目标检测相比,跟踪领域的训练数据集较少。孪生网络首先应用在签名验证领域,1993 年,Bromley等18提出用于签名验证的双流孪生架构。之后,孪生网络架构被用于人脸验证19-20、地对空图像匹配21、局部块描述符学习22-23、立体匹配24与一次性字符识别25等领域。随着SiamFC的出现,研究者将孪生网络引入目标跟踪领域,开创了深度学习目标跟踪方法的一个范式,后续出现了大量的相关改进算法。大多数目标跟踪算法都可以表述为一个类孪生架构,它的主要结构可以概括为三个部分:用于模板和搜索区域特征提取的孪生网络、用于嵌入两个孪生分支信息的相似度匹配模块和用于从相似度图中提取特征的跟踪头。2 基于孪生网络的跟踪算法 Tao 等26提出的 SINT(Siamese INstance search Tracker)算法是基于孪生网络的跟踪算法的开山之作。该算法训练一个孪生网络来识别与初始目标外观匹配的候选图像位置,将目标跟踪问题转化为匹配问题。此外,该算法结合光流和边界框回归以改进结果,但光流的计算成本很高,系统仅以2 frame/s