1、第 42 卷第 2 期2023 年 3 月Vol.42No.2Mar.2023JOURNAL OF HENAN POLYTECHNIC UNIVERSITY(NATURAL SCIENCE)河南理工大学学报(自然科学版)基于注意力机制和姿态识别的行人再识别赵彦如,牛东杰,杨蕙萌(河南理工大学 机械与动力工程学院,河南 焦作 454000)摘要:在解决行人再识别技术中的姿态变化、遮挡、背景等问题时,为了提高遮挡下的行人再识别性能,提出一种基于注意力机制和姿态识别的行人再识别方法。采用全局注意网络和姿态识别网络分别提取行人图像的全局特征、关节点位置热力图和对应的置信度,通过计算得到行人 13个关节
2、点和融合所有关节点的局部特征,对全局特征和 14个局部特征分别进行行人分类训练,利用多任务学习多个损失共同监督网络的优化。测试时,将关键点特征和全局特征融合后,计算行人的距离排序。在 Market1501 和 DukeMTMC-reID 数据集上测试的 Rank-1/mAP 指标分别达到了 85.1%/75.6%和 64.3%/55.3%。结果表明,所设计方法具备抗姿态变化、遮挡和背景的能力,同时具有较高的识别能力和识别精度。关键词:深度学习;行人再识别;注意力机制;姿态识别;特征融合;局部特征;全局特征中图分类号:TP391文献标志码:A文章编号:1673-9787(2023)2-120-7
3、Person re-identification based on attention mechanism and gesture recognitionZHAO Yanru,NIU Dongjie,YANG Huimeng(School of Mechanical and Power Engineering,Henan Polytechnic University,Jiaozuo 454000,Henan,China)Abstract:In the person re-identification of the posture change,occlusion,background and
4、other issues,in order to improve the performance of person re-identification under occlusion,a person re-recognition method based on the combination of attention mechanism and gesture recognition was proposed.The global attention network and the posture recognition network were used to extract the g
5、lobal features,the thermal map of the joint position and the corresponding confidence,respectively.The local features of pedestrians at 13 joint points and fusion of all joints were obtained by calculation.Pedestrian classification training was conducted for global features and 14 local features res
6、pectively,and multi-task learning was used to learn multiple losses to jointly supervise network optimization.The Rank-1/mAP values tested on the two large-scale public datasets Market1501 and DukeMTMC-reID reached 85.1%/75.6%and 64.3%/55.3%,respectively.It was shown that the designed method with hi
7、gh recognition accuracy had excellent ability resist to posture changes,occlusion and background.赵彦如,牛东杰,杨蕙萌.基于注意力机制和姿态识别的行人再识别 J.河南理工大学学报(自然科学版),2023,42(2):120-126.doi:10.16186/ki.1673-9787.2021070059ZHAO Y R,NIU D J,YANG H M.Person re-identification based on attention mechanism and gesture recogni
8、tion J.Journal of Henan Polytechnic University(Natural Science),2023,42(2):120-126.doi:10.16186/ki.1673-9787.2021070059收稿日期:2021-07-16;修回日期:2021-10-14基金项目:国家自然科学基金资助项目(51505133);河南省科技攻关计划项目(212102210316);河南理工大学光电传感与智能测控河南省工程实验室开放课题资助项目(HELPSIMC-2020-006)第一作者简介:赵彦如(1975),女,河北饶阳人,博士,副教授,主要从事传感器与智能检测方面
9、的教学和研究工作。Email:通讯作者简介:牛东杰(1997),男,河南新乡人,硕士生,主要从事计算机视觉研究。Email:O S I D第 2 期赵彦如,等:基于注意力机制和姿态识别的行人再识别Key words:deep learning;person re-identification;attention mechanism;gesture recognition;feature fusion;local feature;global feature0引 言行人再识别是指在不重叠视域下的监控环境中,利用计算机视觉技术判断图像或视频序列中是否存在特定行人。行人再识别可用于失踪人员查找、犯罪
10、嫌疑人追踪等,在智能监控迅猛发展的今天具有十分广阔的应用前景。由于摄像机分辨率低、光线差异、姿态变化、视角、遮挡、检测不准确和标注困难等因素,给行人再识别研究带来了一系列困难与挑战。同时,随着近年来深度学习技术的兴起,也使得行人再识别成为计算机视觉领域的一大研究热点。早期传统的行人再识别技术研究主要集中在手工设计特征和设计合适的距离度量方法上。在基于手工设计特征较经典的算法中,LIAO S 等1用 HSV 颜色直方图提取颜色特征,同时提出局部最大池化(local maximal occurrence,LOMO)特征解决相机视角变化问题。基于距离度量的方法利用传统的马氏距离、欧氏距离、余弦距离等
11、距离度量函数,通过设计合适的度量模型衡量特征之间的相似性,进而减小类内距离,增大类间距离。K.Q.Weinberger 等2基于马氏距离度量模型提出了一种采用三元约束的大间隔最近邻度量(large margin nearest neighbor,LMNN)。为了降低距离度量过程中的运算量,M.Kstinger 等3从统计学的角度提出了一种简单直接策略的有监督线性度量学习算法(keep it simple and straightforward metric,KissMe)。近年来,基于深度学习技术的使用使识别精度有了很大提高,远高于传统算法。基于深度学习的行人再识别方法是研究提取具有鲁棒性特征
12、的网络,通过与度量学习结合,利用欧氏距离或余弦距离,实现端到端的行人再识别。目前大多数效果较好的行人再识别方法是根据划分条状4-6、注意力机制7-10、姿态识别11-14等方式获取局部特征,再利用局部特征与全局特征结合获取行人信息。其中,ZHANG Z 等9提出了一种基于关系感知的神经网络全局注意(RGA)模块,充分利用神经网络的全局相关性推断注意力。同时,SUN Y等15利用多部件信息为行人图像描述提供细粒度信息的方法已被证实有效。除了利用局部特征和全局特征融合的方法外,刘一敏等16通过生成对抗网络获得视频帧序列增加样本数量,并且加入关节点以提升模型效率。注意力机制的目的是通过关注重要特征,
13、抑制不必要特征以增强代表力,而姿态识别集中在划分区域研究行人特征。上述这些方法都是通过研究单一方法,比如仅利用注意力机制的方法,不具有很好的鲁棒性,而基于对抗网络方法没有很理想的实验效果。受到全局特征和局部特征融合方法有效启发,为了降低背景信息和遮挡的影响,本文利用全局注意力得到全局特征,同时利用姿态识别进一步增加行人关键位置的权重,提出了一种基于注意力机制和姿态识别的行人再识别方法,通过结合全局注意模块与姿态识别网络,有效提升行人再识别性能,并通过实验验证了该方法的有效性。1注意力机制与姿态识别方法如图 1 所示,整体框架包括空间和通道全局注意(RGA)网络、姿态识别网络、特征融合和损失函
14、数。具 体 为:(1)引 入 空 间 和 通 道 全 局 注 意(RGA)模块,嵌入到 Resnet50网络中,通过利用结构关系感受全局注意力特征,得到全局特征向量;(2)利用姿态识别算法获取 13个关键点位置的热力图和置信度,与全局特征向量计算后,并融合所有关节点信息,得到 14个局部特征向量;(3)利用Resnet网络中的残差块(residual block)思想,将全局特征向量与局部特征向量结合;(4)利用多任务学习多个损失共同监督网络的优化,进而提取更为鲁棒的行人特征。训练时,给定一个行人图像,经过全局注意网络和姿态识别网络,分别得到全局特征、关节点热力图和每个关节点对应的置信度,融合
15、得到 13个关节点部位的局部特征和一个融合所有部位的局部特征,再利用残差块思想,加上全局特征后,对全局特征和 14 个局部特征分别进行分类损失和三元组损失监督网络进行优化。测试时,为提升特征的表征能力,通过融合从训练好的网络得到的全局特征和局部特征获取行人总特征,并对其进行相似度度量计算。1212023 年第 42 卷河南理工大学学报(自然科学版)1.1空间和通道全局注意(RGA)网络RGA 模块能充分利用神经网络的全局相关性推断注意力,进而提高特征的表示能力。为此,引入 RGA 模块构建基于空间和通道全局注意的网络。网络主要包括 Resnet50网络和 RGA 模块,其中 RGA 模块包括空
16、间和通道关系感知的注意块,即 RGA-S 和 RGA-C。二者的算法逻辑基本一致,本文只以基于空间的注意块为例进行说明。RGA-S模块网络的输入是一个中间特征图 XRchw,其中,c,h,w 分别为特征图的通道数、高和宽。首先将每个空间位置的 c维特征向量作为一个特征节点,所有的空间位置构成一个 N=hw 节点的图,xi(i=1,2,N)为第 i个节点,定义节点 i和 j 的成对关系 ri,j表示空间中的点积关系,具体为ri,j=fs(xi,xj)=s(xi)Ts(xj),(1)其中,s和 s为两个卷积块,s(xi)=ReLU(Wxi),s(xi)=ReLU(Wxi),省略标准化 bn 操作,同理rj,i=fs(xj,xi)。用一对(ri,j,rj,i)描述 xi和 xj之间的双向关系,然后用关系矩阵 RsRNN表示所有节点的成对关系。为了利用全局的相互关系和局部的原始信息,原始的输入值经过一个卷积层,取所有通道特征图的均值,得到一个通道数为 1的矩阵,即y?i=poolc(s(xi),s(ri),(2)其中,s和 s分别为特征本身和整体关系的嵌入函数(卷积层,bn 层和 ReLU),