基于图卷积网络与自注意力图池化的视频行人重识别方法

资源描述

1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):728-735ISSN 10019081CODEN JYIIDUhttp：/基于图卷积网络与自注意力图池化的视频行人重识别方法姚英茂，姜晓燕*（上海工程技术大学电子电气工程学院，上海 201620）（通信作者电子邮箱）摘要：针对跨相机网络视频中存在的遮挡、空间不对齐、背景杂波等因素导致视频行人重识别效果较差的问题，提出一种基于图卷积网络（GCN）与自注意力图池化（SAGP）的视频行人重识别方法。首先，通过区块关系图建模挖掘视频中帧间不同区域的关联信息，并利用GCN优化逐帧图像

2、中的区域特征，缓解遮挡和不对齐等问题；然后，通过SAGP机制去除对行人特征贡献较低的区域，避免背景杂波区域的干扰；最后，提出一种加权损失函数策略，使用中心损失优化分类学习结果，并使用在线软挖掘和类感知注意力（OCL）损失解决难样本挖掘过程中可用样本未被充分利用的问题。实验结果表明，在MARS数据集上，相较于次优的AITL方法，所提方法的平均精度均值（mAP）与Rank-1分别提高1.3和2.0个百点。所提方法能够较好地利用视频中的时空信息，提取更具判别力的行人特征，提高行人重识别任务的效果。关键词：视频行人重识别；图卷积网络；自注意力图池化；加权损失函数策略；中心损失中图分类号：TP391.4

3、文献标志码：AVideo-based person re-identification method based on graph convolution network and self-attention graph poolingYAO Yingmao，JIANG Xiaoyan*（School of Electronic and Electrical Engineering，Shanghai University of Engineering Science，Shanghai 201620，China）Abstract:Aiming at the bad effect of vide

4、o person re-identification caused by factors such as occlusion，spatial misalignment and background clutter in cross-camera network videos，a video-based person re-identification method based on Graph Convolutional Network（GCN）and Self-Attention Graph Pooling（SAGP）was proposed.Firstly，the correlation

5、information of different regions between frames in the video was mined through the patch relation graph modeling.In order to alleviate the problems such as occlusion and misalignment，the region features in the frame-by-frame images were optimized by using GCN.Then，the regions with low contribution t

6、o person features were removed by SAGP mechanism to avoid the interference of background clutter regions.Finally，a weighted loss function strategy was proposed，the center loss was used to optimize the classification learning results，and Online soft mining and Class-aware attention Loss（OCL）were used

7、 to solve the problem that the available samples were not fully used in the process of hard sample mining.Experimental results on MARS dataset show that compared with the sub-optimal Attribute-aware Identity-hard Triplet Loss（AITL），the proposed method has the mean Average Precision（mAP）and Rank-1 in

8、creased by 1.3 percentage points and 2.0 percentage points.The proposed method can better utilize the spatial-temporal information in the video to extract more discriminative person features，and improve the effect of person re-identification tasks.Key words:video-based person re-identification;Graph

9、 Convolutional Network(GCN);Self-Attention Graph Pooling(SAGP);weighted loss function strategy;center loss0 引言跨相机网络行人重识别通常被视为图像检索问题，旨在将目标图像/视频与不同视角拍摄的图库照片/视频相匹配，在智慧交通、智能监控和刑事侦查领域有着广泛的应用1。然而，不同相机因视角、光照、行人姿态等因素不同而造成的目标遮挡、外观差异等会对行人重识别的效果产生严重影响，因此行人重识别仍然是计算机视觉领域一个具有挑战性的研究。现有的行人重识别方法一般分为两大类：基于图像的行人重识别和基

10、于视频的行人重识别。基于图像的行人重识别方法2将单帧图像作为输入，侧重于提取衣服的颜色、行人的体态等外观特征，而不考虑图像之间的时序信息。当图像中出现大面积噪点或目标被遮挡时，基于图像的行人重识别效果会受到严重影响。基于视频的行人重识别方法直接使用视频序列作为输入，相比单帧图像不仅包含了更加丰富的行人外观特征，还包含了与行人运动相关的时序信息，如行人的姿态和步态的变化3等，有助于消除单张图像外观特征对重识别整体效果的负面影响。基于视频的行人重识别大部分采用了基于深度学习的方法，如光流法3、循环神经网络（Recurrent Neural Network，文章编号：1001-9081（2023）0

11、3-0728-08DOI：10.11772/j.issn.1001-9081.2022010034收稿日期：20220113；修回日期：20220310；录用日期：20220314。基金项目：国家自然科学基金资助项目（U2033218）。作者简介：姚英茂（1997），男，河南孟州人，硕士研究生，主要研究方向：行人重识别；姜晓燕（1985），女，江苏南通人，副教授，博士研究生，主要研究方向：计算机视觉。第 3 期姚英茂等：基于图卷积网络与自注意力图池化的视频行人重识别方法RNN）4-5、三维卷积神经网络（3D Convolutional Neural Network，3D CNN）

12、6-7、注意力机制8-11等。这些方法首先采用卷积神经网络（Convolutional Neural Network，CNN）作为特征提取器，逐帧提取特征向量，再通过时序池化将序列中的逐帧特征聚合为视频特征，最后在特定的度量空间中比较这些特征。如果直接对不同帧的图像进行时序建模，仅利用了视频中很少的时序信息，而忽视了帧间不同区域更具判别力的关联信息12，这些信息往往是解决行人重识别问题的关键。行人重识别中存在的一些问题如图1所示。图1（a）中，行人身体的不同部位在不同帧中被障碍物遮挡，但在其他帧中这些被遮挡的部位又重新出现。如果能够利用其他帧中未被遮挡的行人特征补足，将会减少遮挡问题的影响。图

13、1（b）中，较长的视频中存在帧间行人空间不对齐的问题，如能利用行人的身体结构信息，将近似的部位予以对应、相互学习，将有助于改善因空间不对齐带来的问题。图 1（c）中，部分区域存在背景杂波，如能排除此类与行人无关的干扰信息，能够提取更具判别力的特征。基于上述研究，为有效利用视频序列中蕴含的丰富的行人外观信息以及与行人运动相关的时序信息，本文提出了一种基于图卷积网络（Graph Convolutional Network，GCN）13与自注意力图池化（Self-Attention Graph Pooling，SAGP）14的方法。首先，通过建模区块关系图，挖掘帧间不同区域的关联信息，使用GCN在节

14、点间传递关联信息，优化逐帧图像中的区域特征，缓解遮挡和空间不对齐等问题。其次，通过SAGP机制去除图模型中对于行人特征贡献率较低的节点，抑制背景杂波的影响。另外，考虑到帧内的行人结构信息同样重要，结合全局分支和图分支以互补地挖掘信息。最后，采用一种加权损失函数策略，除使用交叉熵损失（Cross-Entropy Loss，CEL）和三元组损失（Triplet Loss，TL）的传统做法以外，用中心损失（Center Loss，CL）15聚集属于同一身份的样本特征，优化分类学习的效果；并使用在线软挖掘和类感知注意力损失（Online soft mining and Class-aware at

15、tention Loss，OCL）16，为每个批次的样本分配一个连续分布的函数，在线挖掘样本数据，解决难样本挖掘中样本未被充分利用的问题，同时排除标签错误的异常值样本对模型性能的影响。1 相关工作 1.1基于视频的行人重识别目前大多数基于视频的行人重识别方法采用CNN作为特征提取器，从连续帧中提取行人图像的空间特征；然后建模一个时域模型，挖掘视频序列中特有的时序信息，最后使用时序池化将序列中逐帧图像的特征聚合为视频特征，在特定的度量空间中进行比较。先前的一些研究使用了光流法，通过提取视频序列的步态信息得到时序特征，例如，文献 3提出一种双流CNN，每个流都是一个孪生网络，用于处理两个视频序列并

16、计算它们之间的相似性，第一个流的输入是RGB帧，第二个流的输入是光流栈，分别学习空间信息和时间信息。但是，对于遮挡和存在背景杂波的场景，光流法不够稳健并且耗时较多。还有一些研究通过RNN进行时间建模，聚合帧级时序特征表示行人的视频特征，例如：文献 4在采用 CNN提取空间特征的基础上，使用 RNN进行时间建模，建立序列间的关联；文献 5 提出一个改善循环单元（Refining Recurrent Unit，RRU），通过参考历史帧以恢复当前帧特征中缺失的部分，并抑制背景杂波，利用时空信息对特征进行改善，然而，RNN在行人重识别任务中对于时间信息的建模能力相对有限；文献 6 中使用 3D CNN 同时学习行人的外观和运动特征，但是，3D CNN 难以解决空间不对齐问题。最近的一些方法采用了注意力机制，例如：文献 7 中进一步采用非局部注意力解决时间序列上的外观错位问题；文献 8 中提出一种时空注意力（Spatial-Temporal Attention，STA）模型以解决单帧图像中出现的遮挡问题；文献 9 中提出一种非局部视频注意力网络（Non-local Video Attention

展开阅读全文

基于图卷积网络与自注意力图池化的视频行人重识别方法_姚英茂.pdf