1、第 31 卷 第 4 期2023 年 2 月Vol.31 No.4Feb.2023光学 精密工程 Optics and Precision Engineering结合残差收缩和时空上下文的行为检测网络黄忠1,2*,陶孟元1,胡敏2,刘娟1,占生宝1(1.安庆师范大学 电子工程与智能制造学院,安徽 安庆 246133;2.合肥工业大学 计算机与信息学院,安徽 合肥 230009)摘要:针对 R-C3D 行为检测网络特征提取冗余度高及边界定位不准确的问题,结合残差收缩结构和时空上下文,提出一种改进的行为检测网络(RS-STCBD)。首先,将收缩结构和软阈值化操作融入到 3D-ResNet的残差模块
2、中,设计通道自适应阈值的残差收缩单元(3D-RSST),并级联多个 3D-RSST 单元构建特征提取网络以消除行为特征中的噪声、背景等冗余信息;然后,在时序候选子网中嵌入多层卷积替代一次卷积,以增加时序侯选片段的时序维度感受野;最后,在行为分类子网引入非局部注意力机制,通过捕获优质行为时序片段间的远程依赖以获取动作时空上下文信息。在 THUMOS14和 ActivityNet1.2数据集上的实验结果表明:改进网络的 mAP0.5分别达到 36.9%和 41.6%,比 R-C3D 方法提升了 8.0%和 14.8%。基于改进网络的行为检测方法提高了动作边界定位精度和行为分类准确率,有利于改善自然
3、场景下的人机交互质量。关键词:行为检测网络;残差收缩结构;时空上下文;多层卷积;非局部注意力机制中图分类号:TP394.1;TH691.9 文献标识码:A doi:10.37188/OPE.20233104.0552Combining residual shrinkage and spatio-temporal context for behavior detection networkHUANG Zhong1,2*,TAO Mengyuan1,HU Min2,LIU Juan1,ZHAN Shengbao1(1.School of Electronic Engineering and Int
4、elligent Manufacturing,Anqing Normal University,Anqing 246133,China;2.School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230009,China)*Corresponding author,E-mail:Abstract:To solve the problems of high redundancy of behavior feature extraction and inaccurate
5、localization of behavior boundary of R-C3D,an improved behavior detection network(RS-STCBD)based on residual shrinkage and spatio-temporal context is proposed.First,the residual shrinkage structure and soft threshold operation are integrated into the residual module of 3D-ResNet,and a unit of 3D res
6、idual shrinkage with channel-adaptive soft thresholds(3D-RSST)is designed.Moreover,multiple 3D-RSSTs are cascaded to construct a feature extraction network to adaptively eliminate redundant information such as noise and background in behavioral features.Second,instead of single convolution,multi-lay
7、er convolu文章编号 1004-924X(2023)04-0552-13收稿日期:2022-05-16;修订日期:2022-07-08.基金项目:国家自然科学基金面上项目资助(No.62176084);安徽省自然科学基金面上项目资助(No.1908085MF195);安徽省高校优秀青年人才基金项目资助(No.gxyqZD2021122)第 4 期黄忠,等:结合残差收缩和时空上下文的行为检测网络tions are embedded into the proposed subnet to increase the temporal dimension receptive field of
8、the temporal proposal fragments.Finally,a non-local attention mechanism is introduced into the behavior classification subnet to obtain the spatio-temporal context information of behavior by capturing remote dependencies among high-quality behavior proposals.Experimental results on THUMOS14 and Acti
9、vityNet1.2 datasets show that the mAP0.5 values of the improved network reach 36.9%and 41.6%,which are 8.0%and 14.8%higher than those of R-C3D,respectively.The behavior detection method based on the improved network,which increases the accuracy of behavior boundary localization and behavior classifi
10、cation,is beneficial and enhances the quality of human-robot interaction in natural scenes.Key words:behavior detection network;residual shrinkage structure;spatio-temporal context;multilayer convolution;non-local attention mechanism1 引 言随着机器人被广泛应用于迎宾讲解、体感游戏、老人陪护等自然人机交互场景,如何让机器人正确理解人的行为成为人机交互的研究热点1。
11、行为检测作为提升人机交互质量最重要的手段,受到研究者高度重视和广泛关注。行为检测的主要任务是在未经过剪辑处理的视频流中,自动定位动作时间边界(即行为起止时间)并进行动作识别2。因此,与已知动作边界的行为识别方法相比,行为检测方法更符合机器人在自然人机交互场景中的应用。然而,当前行为检测方法一方面由于视频流易受光照、遮挡、背景等因素影响,提取的动作特征包含较多冗余信息;另一方面由于缺乏时空上下文信息,动作边界定位精度和行为分类准确度有待提高3。设计能够抑制冗余特征信息并融入时空上下文信息的时序网络仍是行为检测领域亟待解决的问题。当前行为检测网络主要分为单阶段方法、两阶段方法以及弱监督学习方法4。
12、单阶段方法是在一维时序特征基础上,直接生成时间边界并预测 行 为 类 别,如 SMS5,I2Net6,DecoupleSSAD7等;两阶段方法则是先从视频流中提取大量包含行为的时序候选片段,然后从中筛选优质的时序片段再进行边界定位和行为分类。Zhao Y 等8采用结构化时间金字塔对每个动作的时序进行建模,并引入判别模型实现边界定位和行为识别;Lin T 等提出 LGN9实现行为局部和全局上下文信息的融合;Xu H 等10提出 R-C3D 方法,首先采用 3D 全卷积网络对视频流进行编码,然后利用候选网络生成包含行为的候选片段并分类。由于 R-C3D 完善的框架和优秀的检测性能,受到研究者的广泛
13、关注并提出了多种改进的方法。如 Chen G 等11利用时间位置感知网络达到筛选高质量时序候选片段和行为分类的目的;Xu H 等12融合运动光流和 RGB流,采用双流结构实现行为分类;Yang L 等13在 anchor-base 基础上通过改进锚框机制解决视频序列过长或过短的问题。与单阶段方法相比,两阶段方法在数据不均衡等情况下的检测精度和分类效果具有较大提升。但由于缺乏冗余信息的抑制机制和时序候选片段间的上下文信息,两阶段方法的边界定位精度和行为分类准确度仍难以满足机器人用户感知和理解的应用要求14-15。弱监督学习方法则是在已有模型基础上计算片段的动作概率,再依赖多实例学习策略实现行为分
14、类,代 表 性 的 有 AffNet16,MSA-Net17,BackTAL18等。尽管弱监督学习方法不需要标注大量样本,但其检测精度和算法性能仍有待进一步提高。针对行为检测特征提取冗余度高及行为边界定位不准确的问题,本文以两阶段的 R-C3D 方法为基础,提出一种改进的行为检测网络(RS-STCBD)。在特征提取子网中,为了抑制背景、噪声等冗余信息,在 3D-ResNet卷积网络基础上融合收缩结构和软阈值化操作,设计通道自适应阈 值 的 残 差 收 缩 单 元(3D Residual Shrinkage unit with channel-adaptive Soft Thresholds,3
15、D-RSST);在时序候选子网中,针对在 R-C3D 网络中使用一次卷积策略易造成空间特征信息丢失的问题,采用多层卷积策略增加时序侯选片段的时序维度感受野;在行为分类子网中,采用非局553第 31 卷光学 精密工程部注意力机制捕获优质时序片段间的时空上下文信息。本文创新点如下:(1)结合残差收缩结构和时空上下文,提出一种改进的行为检测网络RS-STCBD。该网络通过抑制行为特征中的冗余信息并融合行为时空上下文信息提高行为检测的准确度;(2)嵌入收缩结构和软阈值化操作,设计 3D-RSST 单元,并构建多个 3D-RSST 单元级联的特征提取子网。通过自动学习通道阈值和软阈值化操作,该子网能够自
16、适应消除冗余信息以提升特征提取的有效度;(3)采用多层卷积策略增加时序侯选片段的时序维度感受野,并引入非局部注意力机制获取优质时序片段间的时空上下文信息。通过改善时序候选子网和行为分类子网的时空上下文捕获能力,从而提升动作边界定位和行为分类的精度。2 RS-STCBD网络设计R-C3D 行为检测网络主要由特征提取子网、时序候选子网以及行为分类子网三部分组成。针对 R-C3D 行为检测网络提取特征冗余度高及边界定位不准确的问题,本文提出一种改进的行为检测网络 RS-STCBD,如图 1所示。其主要包括嵌入残差收缩结构的特征提取子网(Feature Subnet)、基于多层卷积的时序候选子网(Proposal Subnet)以及引入非局部注意力机制的行为分类子网(Classification Subnet)。2.1嵌入残差收缩结构的特征提取子网在人机交互自然情景下,行为检测易受噪声、光照等环境因素的干扰。由于缺乏抗干扰机制,R-C3D 特征提取子网获取的行为特征包含较多冗余信息。同时,由于视频中不同行为的冗余信息存在较大差异,其抑制阈值也应各不相同。为自适应的抑制不同视频流的冗余信息,本文