1、文章编号:1002-2082(2023)01-0071-08基于改进 ViT 的红外人体图像步态识别方法研究杨彦辰1,云利军1,2,梅建华1,卢琳3(1.云南师范大学信息学院,云南昆明650500;2.云南省光电信息技术重点实验室,云南昆明650500;3.云南省烟草烟叶公司设备信息科,云南昆明650218)摘摘 要:要:针对卷积神经网络在步态识别时准确率易饱和现象,以及 VisionTransformer(ViT)对步态数据集拟合效率较低的问题,提出构建一个对称双重注意力机制模型,保留行走姿态的时间顺序,用若干独立特征子空间有针对性地拟合步态图像块;同时,采用对称架构的方式,增强注意力模块在
2、拟合步态特征时的作用,并利用异类迁移学习进一步提升特征拟合效率。将该模型运用在中科院 CASIAC 红外人体步态库中进行多次仿真实验,平均识别准确率达到 96.8%。结果表明,本文模型在稳定性、数据拟合速度以及识别准确率 3 方面皆优于传统 ViT 模型和 CNN 对比模型。关键词:关键词:步态识别;对称双重注意力机制;迁移学习;红外人体图像;VisionTransformer;卷积神经网络中图分类号:TN219;TP181文献标志码:ADOI:10.5768/JAO202344.0102002Gait recognition method of infrared human body ima
3、gesbased on improved ViTYANGYanchen1,YUNLijun1,2,MEIJianhua1,LULin3(1.CollegeofInformation,YunnanNormalUniversity,Kunming650500,China;2.YunnanProvincialKeyLaboratoryofOptoelectronicInformationTechnology,Kunming650500,China;3.DepartmentofEquipmentInformation,YunnanTobaccoLeafCompany,Kunming650218,Chi
4、na)Abstract:Aimingatthephenomenonthattheaccuracyofconvolutionalneuralnetworkiseasytobesaturatedingaitrecognitionandtheproblemoflowfittingefficiencyofvisiontransformer(ViT)togaitdataset,anideatoconstructasymmetricaldualattentionmechanismmodelwasproposedtoretainthetimeorderofwalkingposture,and fit the
5、 gait image blocks with several independent feature subspaces.At the same time,thesymmetricalarchitecturewasadoptedtoenhancetheroleofattentionmoduleinfittinggaitfeatures,andtheheterogeneoustransferlearningwasusedtofurtherimprovetheefficiencyoffeaturefitting.ThemodelwasappliedtoCASIACinfraredhumanbod
6、ygaitdatabaseofChineseAcademyofSciencesformanysimulationexperiments,andtheaveragerecognitionaccuracywas96.8%.Theresultsshowthattheproposedmodelissuperior to the traditional ViT model and CNN comparison model in stability,data fitting speed andrecognitionaccuracy.Key words:gaitrecognition;symmetrical
7、dualattentionmechanism;transferlearning;infraredhumanbodyimages;visiontransformer;convolutionalneuralnetwork引言红外人体步态识别作为最有潜力的非侵入式中远距离生物特征识别技术之一,可在无需被采集者配合的情况下,利用采集到的中远距离低分辨率红外步态图像,识别行人的身份信息1。相较人脸、指纹等识别条件相对严格的生物特征识别技术而言,红外步态识别技术应用场景更为广泛,在可见光强度不足、雨雪天气等特殊环境下仍能收稿日期:2022-03-21;修回日期:2022-04-28基金项目:云南省应用基础
8、研究计划重点项目(2018FA033);云南师范大学研究生科研创新基金项目(YJSJJ21-B77)作者简介:杨彦辰(1997),男,硕士研究生,主要从事视频图像处理研究。E-mail:通信作者:云利军(1973),男,博士,教授,主要从事物联网技术、视频图像处理研究。E-mail:第44卷第1期应用光学Vol.44No.12023年1月JournalofAppliedOpticsJan.2023保证较高的识别准确率,在身份识别领域异军突起2。卷积神经网络(convolutionalneuralnetwork,CNN)作为一种快速、可扩展的端到端学习框架,极大地简化了传统机器学习低效、冗杂的结
9、构,在图像处理的各个领域都取得了不错的成果。HeK 等人3提出了一种易优化的深度残差网络,通过各残差块之间的跳跃连接,防止网络过深带来的梯度消失问题,并提高了准确率。WangH 等人4以残差网络为基础构建了一种 L-Resnet-50 网络,在维持较高步态识别准确率的前提下减少各部分 50%的参数量,取得了不错的效果。HuangG 等人5采用调节局部特征流动的方法构建了一种处理步态数据的网络结构,该网络通过提取帧级特征和帧间局部特征间的关系,灵活地获取局部和全局中最有判别性的特征,在 CASIAB 中取得了 95.1%的准确率。由于 CNN 无法捕捉序列化数据中的连续动态时空信息,使得卷积神经
10、网络在自然语言处理 NLP(naturallanguageprocessing)及一些数据间有顺序关系的领域表现并不是很理想。之后 WangX 等人6设计了 FF-GEI(frame-by-frameGEI),扩大了步态能量图可用数据量,结合带有长短期记忆的Conv-LSTM(convolutionallongshort-termmemory)模型,在 CASIAB 和 OU-ISIR 上对泛化能力进行验证,取得了较为优秀的结果。VaswaniA 等人7首次在 NLP 领域中提出了完全基于自注意力机制的 Transformer 架构,使模型在拥有简单结构的情况下,对带有时序信息的数据进行特征提
11、取。DosovitskiyA 等人8利用 Transformer 处理图像数据,将图像进行无重叠切片,再进行包含位置信息的数据特征学习,提供了一种全新的模型架构思想,在拥有大量样本的数据集中已经逐步赶超现在流行的一些 CNN 网络模型,但在小样本数据集上的表现仍有很大的提升空间。本文将构建对称的双重完全注意力机制模型,以中科院 CASIAC 红外步态库作为数据集,经过数据预处理和步态周期划分之后,采用多次实验取平均的方式进行多轮消融实验。首先将本文模型和同尺寸 ViTBase 模型对比,以证明对称双重注意力结构能有效促进模型收敛。然后加入迁移学习,得出其对模型收敛速度的促进效果。最后将加入迁移
12、学习的本文模型同 CNN 模型进行稳定性、收敛速度和准确率对比,证明融合了迁移学习之后的本文模型在保留背包、步速等杂项步态特征的状态下,仍能取得较优的识别准确率。1 数据处理1.1 数据集实验数据集采用中国科学院自动化研究所CASIA 步态数据库中的 DatasetC 红外步态数据库。该数据库在单人单一角度下对 153 名被采集者正常行走(fn)、快速行走(fq)、慢速行走(fs)、背包行走(fb)的 4 种不同行走状态进行拍摄。固定角度设置为 90,大小约有 66.5MB。图 1 给出了CASIAC 数据库中的两种红外步态实例。(a)背包行走(b)正常行走图 1 CASIA C 数据库中的红
13、外步态实例Fig.1 Examples of infrared gait in CASIA C database1.2 红外步态图像预处理本文首先采用背景减除法9-10来提取行走过程中的人体轮廓特征,再将图像进行二值化处理,进一步强化人体姿态信息,最后剪裁大量无用背景信息,并将被采集者的步态信息居中显示,最后将其调整为 128128 像素。具体处理结果如图 2所示。(a)二值化后的红外步态视频帧(b)剪裁无用背景信息后的图像图 2 红外步态图像预处理Fig.2 Image preprocessing results of infrared gait1.3 步态周期估计函数由于 ViT 是对一组
14、带有时间信息的图像数据进行特征学习的模型结构,因此,需要将行人的步态数据按照步态周期进行划分。将步态周期组作为数据输入,可使模型在特征学习过程中不止学72应用光学第44卷第1期习到人体瞬时姿态特征,同时又将一段时间内的姿态特征按照时间顺序联系起来,有助于增加模型的鲁棒性和稳定性。图 3 为背包状态下以左脚迈出为初始状态的双脚步态周期图。图 3 背包状态双脚步态周期Fig.3 Feet gait cycle in backpack state目前常用的图像相似性模板匹配算法有绝对差和(sumofabsolutedifferences,SAD)11、归一化交叉相关系数(normalizedcros
15、scorrelation,NCC)12与零均值归一化交叉相关系数(zero-normalizedcrosscorrelation,ZNCC)133 种,考虑到红外步态图中对人体行走姿态特征敏感度要求较高,同时为避免计算绝对差和或误差平方和可能出现的模式匹配错误,本文采用对人体姿态轮廓识别更精细的 ZNCC 函数作为步态周期的估计函数,其结果越大表明两张图像的相关性越强。ZNCC 函数可以用(1)式来表示:ZNCC(x,y)=1nx,y1ft(f(x,y)f)(t(x,y)t)(1)(x,y)f(x,y)t(x,y)nft式中:为图像中的像素位置坐标;是原图像像素值;为模板图像像素值;为模板中像
16、素(元素)的个数;、分别为原图像和模板图像的像素均值。将包含有时间顺序的一连串步态图像逐一输入 ZNCC 函数中,与设定好的初始状态图像进行相关系数计算,根据相关系数变化图对比得出特征重复周期,再取最大值,从而估算得到本文研究的步态周期。以 001 号类别为例,如图 4 所示,其中 2 个相邻峰值之间为 1 个单脚步态周期。1.00.90.80.70.60.508 16 24 32 40 48 56 64 72 80 88 96104112120128136144Degree of correlationPicture label1.00.90.80.70.60.5081624324048566472808896 104Degree of correlationPicture labelCorrelation indexCorrelation index1.00.90.80.70.60.508162432404856647280Degree of correlationPicture label1.00.90.80.70.60.50816243240485664728088961121