1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1372-1377ISSN 1001-9081CODEN JYIIDUhttp:/融合人体全身表观特征的行人头部跟踪模型张广耀1,2,宋纯锋1,2*(1.中国科学院大学 人工智能学院,北京 100049;2.中国科学院自动化研究所 智能感知与计算研究中心,北京 100190)(通信作者电子邮箱)摘要:现有的行人多目标跟踪模型在密集场景下存在行人无法检出以及帧间关联混淆的问题。为了提高密集场景下行人跟踪的精确率,提出一种融合全身表观特征的行人头部跟踪模型HT-FF(Head Tr
2、acking with Full-body Features)。首先,使用行人头部检测器替代全身检测器,提高密集场景下行人的检出率;其次,利用人体姿态估计的信息为引导,获得去噪声的全身表观特征作为跟踪线索,大幅减少多帧之间关联时发生的混淆。HT-FF模型在密集场景下行人跟踪的基准数据集Head Tracking 21(HT21)上的MOTA(Multiple Object Tracking Accuracy)和IDF1(ID F1 Score)等多个指标上取得了最优的结果。HT-FF模型能有效缓解密集场景下行人跟踪丢失和混淆的问题,所提出的融合多线索的跟踪模型是行人跟踪任务的新范式。关键词:多
3、目标跟踪;运动模型;动态模型;特征匹配;行人头部跟踪;行人重识别;人体姿态估计;表观特征中图分类号:TP391.4 文献标志码:APedestrian head tracking model based on full-body appearance featuresZHANG Guangyao1,2,SONG Chunfeng1,2*(1.School of Artificial Intelligence,University of Chinese Academy of Sciences,Beijing 100049,China;2.Center for Research on Intell
4、igent Perception and Computing,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)Abstract:The existing pedestrian multi-object tracking algorithms have the problems of undetectable pedestrians and inter-frame association confusion in dense scenes.In order to improve the precis
5、ion of pedestrian tracking in dense scenes,a head tracking model based on full-body appearance features was proposed,namely HT-FF(Head Tracking with Full-body Features).Firstly,the head detector was used to replace the full-body detector to improve the detection rate of pedestrians in dense scenes.S
6、econdly,using the information of human posture estimation as a guide,the noise-removed full-body appearance features were obtained as tracking clues,which greatly reduced the confusion in the association among multiple frames.HT-FF model achieves the best results on multiple indicators such as MOTA(
7、Multiple Object Tracking Accuracy)and IDF1(ID F1 Score)on benchmark dataset of pedestrian tracking in dense scenes Head Tracking 21(HT21).The HT-FF model can effectively alleviate the problem of lost and confused pedestrian tracking in dense scenes,and the proposed tracking model combining multiple
8、clues is a new paradigm of pedestrian tracking model.Key words:multi-object tracking;motion model;dynamic model;feature matching;pedestrian head tracking;pedestrian re-identification;human pose estimation;appearance feature0 引言 随着互联网视频内容的快速增长,基于视频的视觉内容分析成了计算机视觉中的一个热门研究话题。多目标跟踪是计算机视觉中的一个基础任务,它的目的是在一段
9、连续的视频中关联特定类别的同一身份的检测框,从而形成多条轨迹。高度优化的多目标跟踪模型可以应用于视频监控、动作识别、自动驾驶等。近些年来,随着深度神经网络的应用,多目标跟踪任务已经得到了长足的发展。其中,基于两步法的多目标跟踪1在大部分的通用场景下表现优异。然而,在极度拥挤的场景下,两步法多目标跟踪常常会失效。这是因为行人之间的互相遮挡会阻止行人的有效检出以及有判别力的行人表观特征提取2。一些现有的工作试图通过学习一个对于漏检和有噪声的行人表观特征更加鲁棒的跟踪器3来减少漏检和帧间关联混淆,为了实现这一目标,这类工作一般会设计更加有效的跟踪片段管理方式3,或对轨迹进行全局的优化4;然而,此类模
10、型需要利用未来帧的信息,因此无法满足实际场景中在线跟踪的要求。另一部分工作试图解决漏检问题以及对遮挡下的行人表观特征去噪声2,5,本文的工作就属于这一类别。在严重拥挤的情况下,行人的全身目标框之间互相遮挡严重,但行人头部之间的遮挡相对较少,因此文献 2 中提出了一种行人头部跟踪的模型 HeadHunter-T和基准数据集Head Tracking 21(HT21)。这一范式引起了人们的广泛关注。然而,为了在被遮挡之后保有同样的身份,文献 2 中只考虑了行人头部的表观特征,并没有考虑其他的跟踪线索。文章编号:1001-9081(2023)05-1372-06DOI:10.11772/j.issn
11、.1001-9081.2022030377收稿日期:2022-03-28;修回日期:2022-05-11;录用日期:2022-05-19。基金项目:国家自然科学基金资助项目(62006231)。作者简介:张广耀(1996),男,山东省济南人,硕士研究生,主要研究方向:目标检测、多目标跟踪;宋纯锋(1989),男,山东泰安人,助理研究员,博士,CCF会员,主要研究方向:模式识别、计算机视觉、深度学习。第 5 期张广耀等:融合人体全身表观特征的行人头部跟踪模型直觉上来说,行人头部表观特征非常鲁棒,易于提取,是良好的行人头部跟踪的线索;但本文中的实验结果表明,行人头部的表观特征在拥挤场景下可能并不是
12、最优的,特别是在远距离的情况下,行人头部会出现严重的模糊,因此无法提取有效的表观特征。实验结果显示,行人全身的表观特征相较于行人头部的表观特征更加具有判别力,能够更好地帮助行人头部的跟踪问题。为了能够利用全身的表观特征线索帮助行人头部跟踪,本文提出了一种融合全身表观特征的行人头 部 跟 踪 模 型 HT-FF(Head Tracking with Full-body Features)。该模型首先检测头框,然后利用头框动态生成全身框,最后利用全身框的表观特征帮助头框的跟踪。为了能够通过行人头部的目标框(头框)生成精准全身的目标框(全身框),受到R-CNN(Region-CNN)6的启发,本文利
13、用一个回归分支对使用固定比例生成的锚框(Anchor)进行修正,能得到更加精确的全身框。此外,为了能够使全身的表观特征更好地辅助行人头部的跟踪,本文设计了一种使用人体姿态估计生成热力图来引导身体表观特征提取的模型。本文的HT-FF模型在行人头部跟踪的基准数据集HT21上取得了最好的结果;此外,通过对固定比例的全身框进行回归,该模型还可以得到行人全身目标框的结果,进而在全身跟踪的基准数据集上提交结果进行测试。本文的主要工作包括:1)设计了一种融合行人全身表观特征的行人头部跟踪模型HT-FF,可以同时利用具有更好判别力的全身表观特征线索和更少遮挡的行人头部框运动线索。2)为了能够通过行人头部的目标
14、框来提取全身表观特征,设计了一种从固定比例全身目标锚框进行回归的动态全身目标框生成模型和用人体姿态估计引导去噪声的表观特征提取模型。3)本文模型 HT-FF可以同时完成行人头部跟踪和行人全身跟踪的任务,并在HT21数据集上面取得了最好的性能。1 相关工作 1.1多目标跟踪的基准数据集和算法多目标跟踪的目的是在一段视频序列中,检测特定类别的所有目标框,并关联同一身份的目标框,形成多条轨迹。为了评估多目标跟踪模型的性能,最常用的指标是 CLEAR Metric7,其中MOTA(Multiple Object Tracking Accuracy)是一个综合性的指标,这一指标综合考虑了 IDs(ID
15、switch)、FP(False Positive)和 FN(False Negative);另一个常见指标是IDF1(ID F1 Score)8,它刻画了成功匹配的轨迹在所有的轨迹真值的占比。在实践过程中,MOTA更多地会倾向于给检测性能好的跟踪器高分,IDF1会倾向于给检测和跟踪性能都比较好的跟踪器较高的分数。为了评估不同场景下不同类别多目标跟踪算法的性能,有许多的数据集陆续被提出来。其中MOT Challenge8提供了行人跟踪的一系列数据集。KITTI9和Waymo10提供了自动驾驶场景下的行人和车辆跟踪的基准数据集。多目标跟踪问题的常见范式是两步法,即“先检测,后关联”,总共分为四个
16、基本步骤11:目标检测、轨迹预测、亲和矩阵计算、关联结果生成。两步法的经典的工作有 Deep Sort1、JDE(Joint Detector and Embedding)16、FairMOT(Fair detection and re-identification MOT)17和 GM-Trakcker(Graph Matching Tracker)18等。Deep SORT1提供了一种非常简单但是有效的方式:通过卡尔曼滤波12和深度行人重识别网络分别进行运动预测和表观特征提取,然后通过匈牙利匹配对轨迹进行关联。后续的工作基本上是对于 Deep SORT的改进13-18:JDE使用同一个骨干网络生成目标检测框和行人重识别的特征,使整个多目标跟踪的算法获得了接近实时的性能。FairMOT分析了检测和行人重识别问题之间的冲突,并提出了针对性的解决方案:降低表观特征复杂度并使用基于 Center Point的目标检测模型。GM-Tracker将多目标跟踪问题建模成一个图匹配的问题,并且提出了一种可微分的多目标跟踪算法。1.2密集场景下的行人跟踪在密集场景中,普通的多目标跟踪模型常常会得到较