收藏 分享(赏)

基于多级特征融合和时域扩展的行为识别方法_吴浩原.pdf

上传人:哎呦****中 文档编号:2373119 上传时间:2023-05-10 格式:PDF 页数:9 大小:1.81MB
下载 相关 举报
基于多级特征融合和时域扩展的行为识别方法_吴浩原.pdf_第1页
第1页 / 共9页
基于多级特征融合和时域扩展的行为识别方法_吴浩原.pdf_第2页
第2页 / 共9页
基于多级特征融合和时域扩展的行为识别方法_吴浩原.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Engineering and Applications计算机工程与应用2023,59(7)基于多级特征融合和时域扩展的行为识别方法吴浩原1,熊辛2,3,闵卫东3,4,赵浩宇1,汪文翔11.南昌大学 信息工程学院,南昌 3300312.南昌大学第一附属医院 信息处,南昌 3300063.江西省智慧城市重点实验室,南昌 3300474.南昌大学 软件学院,南昌 330047摘要:近年来,基于图卷积网络的行为识别是计算机视觉领域的研究热点。然而,现有的图卷积行为识别方法忽略了肢体层面的动作特征,使得行为空间特征提取不准确。此外,这些方法缺乏在间隔帧间进行时序动态建模的能力,导致行

2、为时域特征表达不充分。针对上述问题提出一种基于多级特征融合和时域扩展的图卷积网络行为识别方法。该方法通过多级融合模块提取与融合低层次的关节特征和高层次的肢体特征,从而得到判别性更强的多层级空间特征。同时通过时域扩展模块从相邻帧、间隔帧中学习丰富的多尺度时域特征,增强行为特征的时序表达。在三个大型数据集(NTU RGB+D 60、NTU RGB+D 120和Kinetics-Skeleton)上的实验结果表明,所提方法的识别准确度高于现有行为识别方法。关键词:图卷积网络;行为识别;多级特征融合;时域扩展文献标志码:A中图分类号:TP391.41doi:10.3778/j.issn.1002-83

3、31.2111-0171Action Recognition Method Based on Multi-Level Feature Fusion and Temporal ExtensionWU Haoyuan1,XIONG Xin2,3,MIN Weidong3,4,ZHAO Haoyu1,WANG Wenxiang11.School of Information Engineering,Nanchang University,Nanchang 330031,China2.Information Department,First Affiliated Hospital of Nanchan

4、g University,Nanchang 330006,China3.Jiangxi Key Laboratory of Smart City,Nanchang 330047,China4.School of Software,Nanchang University,Nanchang 330047,ChinaAbstract:In recent years,action recognition based on graph convolutional network(GCN)has become a researchhotspot in computer vision field.Howev

5、er,the existing GCN-based action recognition methods ignore motion features atthe limb level,which makes the extraction of spatial behavior feature inaccurate.In addition,these methods lack the abilityto perform temporal dynamic modeling between interval frames,resulting in insufficient expression o

6、f temporal behaviorfeature.To solve the above problems,an action recognition method based on GCN with multi-level feature fusion andtemporal extension is proposed.In this method,the multi-level fusion module extracts and fuses low-level joint featuresand high-level limb features,so as to obtain more

7、 discriminative multi-level spatial features.At the same time,the temporalextension module learns rich multi-scale temporal features from adjacent frames and interval frames,which enhances thetemporal expression of behavior features.Experimental results on three large datasets(NTU RGB+D 60,NTU RGB+D

8、120 and Kinetics-Skeleton)show that the recognition accuracy of the proposed method is higher than that of existingaction recognition methods.Key words:graph convolutional network(GCN);action recognition;multi-level feature fusion;temporal extension基金项目:国家自然科学基金(62076117,61762061);江西省智慧城市重点实验室项目(201

9、92BCD40002)。作者简介:吴浩原(1997),男,硕士研究生,CCF学生会员,研究领域为计算机视觉和行为识别;熊辛(1989),男,博士,CCF专业会员,研究领域为计算机视觉和智能医疗;闵卫东(1966),通信作者,男,博士,教授,CCF杰出会员,研究领域为图像和视频处理、人工智能、大数据、分布式系统和智慧城市信息技术,E-mail:;赵浩宇(1997),男,硕士研究生,CCF学生会员,研究领域为深度学习、图像处理及语义分割;汪文翔(1996),男,硕士研究生,CCF学生会员,研究领域为计算机视觉和深度学习。收稿日期:2021-11-10修回日期:2022-01-06文章编号:1002

10、-8331(2023)07-0134-091342023,59(7)人体行为识别是计算机视觉中一个热门的研究方向,其具有广泛的应用价值,例如视频理解、智能安防、人机交互等。目前,行为识别的主流方法1大多数是基于RGB视频序列的行为识别和基于人体骨架序列的行为识别。相比于基于RGB视频序列的人体行为识别方法,基于人体骨架序列的行为识别有更强的鲁棒性,不易受光照、背景、视角等因素的影响,而且人体骨架序列的每一帧仅包括二十多个关节点数据,极大减少了计算成本,更有利工业部署。因此,近年来基于骨架的行为识别越来越受到研究人员的关注。传统的骨架行为识别方法是通过设计手工特征对人体骨架序列建模,但手工特征不

11、仅设计过程十分繁琐,而且不足以表示灵活的人体动作,因此传统方法泛化性较差。随着深度学习技术的突破2-4,目前对于骨架行为识别的研究大多是基于深度学习模型,由于深度学习模型可以通过端对端的方式灵活地自动学习合适的特征,所以其性能是优于传统的方法。目前,深度学习的骨架行为识别方法主要是基于三种框架:卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural networks,RNN)和 图 卷 积 网 络(graph convolutional networks,GCN)。基于CNN的行为识别方法主要思路是按照某种设定规则将人

12、体关节序列转换为伪图像,然后将伪图像送入CNN中进行分类。Li等人5提出了一种3D骨架序列映射到图像的方法,并采用多尺度深度卷积神经网络对其图像分类。Caetano等人6使用骨骼关节的幅度、方向运动信息将骨骼序列编码为图像表示,并将其用作CNN的输入。文献7结合参考关节和树状结构骨架提出了一种新颖的骨架图像表示,称为树结构参考关节图像(tree structure reference joints image,TSRJI)。RNN能够有效地捕获序列数据中的时间信息,研究人员也开展了许多基于RNN的骨架行为识别方法研究。Du等人8将人体划为5个部分,然后使用5个长短时记忆网络(long shor

13、t-term memory,LSTM)分别对这5个部分进行局部特征提取。Liu等人9构建了一个全局上下文感知长短时记忆网络,该网络可以选择地关注每帧中的关节信息。Lee等人10没有直接使用骨骼的原始数据作为输入,而人体骨骼数据变换为另一个坐标系的数据,再将其变换后数据输入到LSTM。尽管基于CNN、RNN的方法性能有了提升,但这些方法忽略了人体的自然结构信息,因此这些模型很难学到人体关节之间的内在关系。近年来,基于GCN的人体骨架行为识别方法取得了高性能的表现,这类方法将人体骨架表示一个图,骨架的关节点对应图中顶点,人体的自然连接对应图中的边,然后基于节点的连接关系对图中的图节点及其邻居节点执

14、行图卷积操作来更新节点的特征。Yan等人11首次将GCN引入骨架行为识别,提出了时空图卷积网络(spatial temporal graph convolutional networks,ST-GCN)。ST-GCN是由空间图卷积和时间图卷积构成,它们分别基于固定的空间图和时间图提取空间信息和时间信息。但ST-GCN中的空间拓扑图是根据人体的自然连接结构所预定的,导致空间拓扑图中的关节点仅能提取到邻接关节点信息。Shi等人12将固定的邻接矩阵变为可学习的邻节矩阵,增强了模型提取结构上分离的关节点的相关信息能力,并采用了双流框架来融合关节信息和骨骼信息提高识别效果。Chen等人13提出了一种逐步

15、池化人体骨架图的行为方法,以关注全局的运动信息和减少参数量。Liu 等人14则是定义关节点的跳跃连接,使关节点具备从骨架拓扑图中获取其高阶邻接关节多尺度信息的能力。文献15将人体骨架图化为多个子图,在子图内执行图卷积,再执行子图间的信息传播。文献16提出了一种新的划分骨架关节点的分区策略以加强关节信息在时空上的关联。基于GCN的方法虽然在骨架行为识别中取得了显著的性能提升,但这些方法大多关注于空间图卷积在骨架图中关节层面特征提取的优化,忽略了骨架图中由多个节点组成的肢体运动信息提取,使得提取了不准确的空间特征。此外,这些方法采用单尺度的一维卷积提取相邻帧间的时域关系特征,导致多次卷积后间隔帧的

16、重要长时间信息被稀释,且单尺度的特征提取也造成时域特征挖掘不充分。针对上述GCN方法中存在的问题,本文提出基于多级特征融合和时域扩展的图卷积网络行为识别方法。该方法中,主要提出了多级融合模块(multi-levelfusion module,MFM)和时域扩展模块(temporal exten-sion module,TEM)。(1)MFM 通过空间自适应图卷积(spatial adaptive graph convolution,SAGC)和部位特征提取器(part feature extractor,PFE)在空间层次上分别提取低层次的关节特征和高层次的肢体特征,并以有效的方式融合这两种级别特征得到判别能力更强的多层级空间特征;(2)TEM引入一维空洞卷积扩展时域跨度以捕获间隔帧在时域上关联,并通过多尺度学习方式提取丰富的多尺度时域特征,增强行为特征的时序表达。基于这两个模块,本文构建了 MT-GCN图卷积网络,MT-GCN可提取有效的行为特征,在3个大型数据集上实现了较高的识别准确度。1本文方法1.1多级特征融合人体行为是由人体的各个肢体单元组成,例如,人类完成“跑步”动作时,左

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2