基于骨架动作识别的协作卷积Transformer网络

资源描述

1、基于骨架动作识别的协作卷积Transformer网络石跃祥朱茂清*(湘潭大学计算机学院网络空间安全学院湘潭411105)摘要：近年来，基于骨架的人体动作识别任务因骨架数据的鲁棒性和泛化能力而受到了广泛关注。其中，将人体骨骼建模为时空图的图卷积网络取得了显著的性能。然而图卷积主要通过一系列3D卷积来学习长期交互联系，这种联系偏向于局部并且受到卷积核大小的限制，无法有效地捕获远程依赖关系。该文提出一种协作卷积Trans-former网络(Co-ConvT)，通过引入Transformer中的自注意力机制建立远程依赖关系，并将其与图卷积神经网络(GCNs)相结合进行动作识别，使模型既能通过图卷积神经

2、网络提取局部信息，也能通过Transformer捕获丰富的远程依赖项。另外，Transformer的自注意力机制在像素级进行计算，因此产生了极大的计算代价，该模型通过将整个网络分为两个阶段，第1阶段使用纯卷积来提取浅层空间特征，第2阶段使用所提出的ConvT块捕获高层语义信息，降低了计算复杂度。此外，原始Transformer中的线性嵌入被替换为卷积嵌入，获得局部空间信息增强，并由此去除了原始模型中的位置编码，使模型更轻量。在两个大规模权威数据集NTU-RGB+D和Kinetics-Skeleton上进行实验验证，该模型分别达到了88.1%和36.6%的Top-1精度。实验结果表明，该模型的性

3、能有了很大的提高。关键词：动作识别；图卷积网络；自注意力机制；Transformer中图分类号：TN911.73;TP391.4文献标识码：A文章编号：1009-5896(2023)04-1485-09DOI:10.11999/JEIT220270Collaborative Convolutional Transformer Network Based onSkeleton Action RecognitionSHIYuexiangZHUMaoqing(School of Computer Science and Cyberspace Security,Xiangtan University,

4、Xiangtan 411105,China)Abstract:Inrecentyears,skeleton-basedhumanactionrecognitionhasattractedwidespreadattentionbecauseoftherobustnessandgeneralizationabilityofskeletondata.Amongthem,thegraphconvolutionalnetworkthatmodelsthehumanskeletonintoaspatiotemporalgraphhasachievedremarkableperformance.Howeve

5、r,graphconvolutionslearnmainlylong-terminteractiveconnectionsthroughaseriesof3Dconvolutions,whicharelocalizedandlimitedbythesizeofconvolutionkernels,whichcannoteffectivelycapturelong-rangedependencies.Inthispaper,aCollaborativeConvolutionalTransformer(Co-ConvT)networkisproposedtoestablishremotedepen

6、denciesbyintroducingTransformersself-attentionmechanismandcombiningitwithGraphConvolutionalNeuralNetworks(GCNs)foractionrecognition,enablingthemodeltoextractlocalinformationthroughgraphconvolutionwhilecapturingtherichremotedependenciesthroughTransformer.Inaddition,Transformersself-attentionmechanism

7、iscalculatedatthepixellevel,ahugecomputationalcostisgenerated.Themodeldividestheentirenetworkintotwostages.Thefirststageusespureconvolutiontoextractshallowspatialfeatures,andthesecondstageusestheproposedConvTblocktocapturehigh-levelsemanticinformation,reducingthecomputationalcomplexity.Moreover,thel

8、inearembeddingsintheoriginalTransformerarereplacedwithconvolutionalembeddingstoobtainlocalspatialinformationenhancement,andthusremovingthepositionalencodingintheoriginalmodel,makingthemodellighter.Experimentallyvalidatedontwolarge-scaleauthoritativedatasetsNTU-RGB+DandKinetics-Skeleton,themodelachie

9、vesrespectivelyTop-1accuracyof88.1%and36.6%.Theexperimentalresultsdemonstratethattheperformanceof收稿日期：2022-03-14；改回日期：2022-07-07；网络出版：2022-07-21*通信作者：朱茂清基金项目：国家自然科学基金(62172349,62172350)，湖南省学位和研究生教育改革研究一般项目(2021JGYB085)FoundationItems:TheNationalNaturalScienceFoundationofChina(62172349,62172350),Huna

10、nProvinceDegreeandPostgraduateEducationReformResearchGeneralProject(2021JGYB085)第45卷第4期电子与信息学报Vol.45No.42023年4月JournalofElectronics&InformationTechnologyApr.2023themodelisgreatlyimproved.Key words:Actionrecognition;GraphConvolutionalNeuralNetworks(GCNs);Self-attentionmechanism;Transformer1 引言近年来，人体动

11、作识别因其在视频监控和人机交互等领域1的高度实用性而受到广泛关注。基于骨骼数据的动作识别方法由于其对环境信息的鲁棒性和低成本等优点，已成为该领域最重要的研究方向之一。基于深度学习的传统方法手动将骨架构建为伪图像，并将其发送到卷积神经网络(Convolu-tionalNeuralNetwork,CNN)或循环神经网络(Re-currentNeuralNetwork,RNN)进行特征提取以获得预测。然而，将骨架数据表示为2维网格并不能完全表达相关关节之间的相关性。作为以关节为顶点、骨骼为边的自然拓扑结构图，用2维图像代替图结构进行特征提取的方法无疑破坏了原有的信息相关性。因此，近年来，基于骨架的动

12、作识别最广泛的方法已成为图神经网络，尤其是图卷积神经网络(GraphConvolutionalNeuralNetworks,GCNs)2。Yan等人3首先使用GCNs对人体骨骼数据进行建模，提出了ST-GCN模型，在人体关节的拓扑结构上构建空间图，并在连续帧中连接每个关节的不同位置以获得时间信息，同时聚合时空信息进行动作识别。虽然在骨架数据上表现不错，但ST-GCN仍存在着一些设计缺陷4,5。(1)ST-GCN仅考虑相邻范围内关节之间的联系，而对结构上距离较远但具有协同作用的关节缺乏关注。比如打篮球时，需要手、脚、腰的配合才能完成一个完整的投篮动作，而这些关节的物理距离是较远的。(2)表示人体

13、骨骼的拓扑特征图对于所有层和动作都是固定的，这可能会影响不同网络层之间语义的丰富表示，比如网络训练后期的数据往往拥有初期所不具备的高级语义信息。(3)尽管GCN可以通过一系列3D卷积的叠加来学习长期交互联系，但这种联系是片面的、局部的，并且受到卷积核大小的限制。最近，Transformer的成功提出了一种通过强大的自注意力机制对远程依赖进行建模的新范式6，虽然它最初是为自然语言处理(NaturalLanguageProcessing,NLP)任务而设计的，但人体骨骼序列的序列性和层次结构，以及Transformer在建模长期依赖方面的灵活性，使其成为解决ST-GCN弱点的完美方案，最近一些学者

14、在图像视觉领域的研究710也证明了使用Transformer同时建模空间和时间关系的可行性，但随之而来的是需要大量的计算资源和数据才能建模长期依赖关系。尽管Transformer在视觉任务上取得了很大成功，但在小数据集上进行训练时，其性能仍低于类似大小的CNN模型。一个可能的原因是Transformer缺乏CNN固有的一些理想特性，例如平移不变性和失真不变性。此外，CNN能够使用局部感受野、共享权重和空间子采样来捕获不同复杂度的局部空间上下文，而Transformer不具备。因此，本文提出了一个协同GCNs和Transformer的模型，在保持高效的计算和内存效率的基础上，对人类行为在空间和时

15、间上的交互信息建模以进行动作识别。本文将整个模型分为两个阶段：低层阶段使用纯卷积来充分学习局部空间信息，高层阶段引入Transfor-mer来捕获远程依赖，获得全局视图以及丰富的语义信息。另外，由于Transformer天然缺少位置信息，需要使用位置嵌入来添加位置信息。针对这种情况，本文使用卷积嵌入而不是线性嵌入来学习人体序列之间的位置关系，避免使用位置编码来达到降低参数的目的。同时，这种机制使模型能够进一步捕捉局部空间上下文，减少注意力机制中的语义歧义。本文的主要贡献总结如下：(1)为基于骨架的动作识别任务提出了一种协同GCNs和Transformer的模型，并将其分别应用于时间流和空间流。

16、(2)设计了卷积嵌入代替原始的线性嵌入来学习位置信息，避免使用位置编码，减少模型的计算损失，大大减少了参数。(3)在基于骨架的动作识别的两个大规模权威数据集NTU-60和Kinetics-400上，本文的模型优于ST-GCN基线和几种最先进的方法。2 相关工作2.1 基于骨架的动作识别骨架数据广泛用于动作识别，早期基于骨架的动作识别研究通常设计手工特征来建模人体11。然而，这些基于手工特征的方法的性能不能令人满意，因为它不能同时考虑所有因素。深度学习的发展提出了可以增强鲁棒性并获得前所未有的性能的方法，其中最广泛使用的模型是RNN和CNN。基于RNN的方法将人体关节序列建模为时间序列12进行计算。基于CNN的方法通过手动设计转换规则13将骨架数据建模为伪图像以充分利用空间信息。最近，由于人体关节与图结构的自然契合，基于GCNs的方法引起了很多关注1417。1486电子与信息学报第45卷Yan等人3直接将骨架数据建模为图结构，每个时空图卷积层用图卷积算子构造空间特征，用卷积算子对时间动态进行建模，从空间和时间上提取特征，从而实现超越之前方法的性能。Li等人18在ST-GCN的基础上通过引

展开阅读全文

基于骨架动作识别的协作卷积Transformer网络_石跃祥.pdf