1、模式识别与人工智能测控技术2023 年第 42 卷第 7 期收稿日期:2022 04 02基金项目:国家自然科学基金 民航联合研究基金(U2033202,U1333119)引用格式:刘豪,吴红兰,孙有朝,等 基于多样卷积单元高效人体姿态估计 J 测控技术,2023,42(7):9 15LIU H,WU H L,SUN Y C,et al Efficient Human Pose Estimation Based on Diverse Convolutional UnitsJ Measurement Control Technology,2023,42(7):9 15基于多样卷积单元高效人体姿态
2、估计刘豪,吴红兰,孙有朝,喻赛(南京航空航天大学 民航学院,江苏 南京211106)摘要:设计兼具准确率和轻量化的人体姿态估计网络模型成为了人机交互领域的迫切需求。为了满足这一需求,结合 HNet 模型的高分辨率设计模式,提出了一种多样化高效卷积单元的高分辨率网络模型 DU-HNet。为了探索并增强来自不同感受野大小层的多尺度信息,鼓励卷积层间信息更加多样化,模型允许并行分支中的每一分支拥有不同类型的高效卷积单元。为了改善模型的非线性,在高效卷积单元中使用通道注意力 ECANet。在 MS COCO 关键点检测数据集和 MPII 数据集中验证了模型的有效性。模型在参数量等于 7 6 M、GFL
3、OPs 为 2 66,没有经过任何后期处理的条件下,在 COCO val2017 数据集上达到了 71 1 mAP(mean Average Precision,平均精度均值)分数,在 COCO test-dev2017 数据集上达到 71 8 mAP 分数。通过消融实验验证了模型整体和组成部分的有效性。关键词:高分辨率;人体姿态估计;卷积神经网络;卷积单元中图分类号:TP183文献标志码:A文章编号:1000 8829(2023)07 0009 07doi:10 19708/j ckjs 2022 10 308Efficient Human Pose Estimation Based on
4、Diverse Convolutional UnitsLIU Hao,WU Honglan,SUN Youchao,YU Sai(College of Civil Aviation,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)Abstract:It is an urgent demand in the field of human-computer interaction to design a network model for hu-man posture estimation with b
5、oth accuracy and lightweight In order to meet this need,the high-resolution net-work model DU-HNet with diverse high-efficiency convolutional units is proposed by combining the high-reso-lution design model of HNet network model In order to explore and enhance the multi-scale information fromdiffere
6、nt receptive field size layers and to encourage more diverse information among convolutional layers,themodel allows each branch of parallel branches to have different types of high-efficiency convolutional units Inorder to improve the nonlinearity of the model,channel attention ECANet is used in the
7、 efficient convolution u-nits The effectiveness of the model is validated on the MS COCO keypoint detection dataset and the MPII data-set The model achieves 71 1 mAP scores on the COCO val2017 dataset and 71 8 mAP scores on the COCOtest-dev2017 dataset with the number of parameters equal to 7 6 M,GF
8、LOPs of 2 66,and without any post-processing The validity of the whole model and its components is verified by ablation experimentsKey words:high-resolution;human pose estimation;convolutional neural networks;convolution unit人体姿态估计是计算机视觉中一个基本且具有挑战性的问题,目的是定位人体关键点,例如手部、膝盖等部位。它的应用较为广泛,包括人体动作识别和人机交互等。近些
9、年来,人们通过使用深度卷积神经网9络(Convolutional Neural Network,CNN)取得了显著的改进。然而这些先进的方法通常使用复杂的网络结构,具有大量的参数和浮点数运算次数,这就导致模型推理十分耗时,对设备内存的要求很高。笔者研究了在计算资源有限的情况下,开发兼具准确率和轻量化的人体姿态估计网络模型。随着 CNN 的发展,DeepPose1 将深度神经网络引入人体姿态估计算法,将人体姿态估计看作是一个人体关键点的回归问题。之后,为了建立人体关键点的空间信息,学者使用 CNN 预测关键点热图成为主流。Simple Baselines2 的网络模型结构为设计一个简单的人体姿态
10、估计网络提供了方法。基于在 esNet主干网络上添加的几个反卷积层,显示了一个简单方法的良好性能。这可能是从深度和低分辨率特征图估计热图的最简单的方法。在大型模型中,例如语义分割、人体姿态估计和目标检测等位置敏感问题中,H-Net3 显示出了强大的能力。为了提取多分辨率的特征信息,HNet 网络模型通过并行多尺度分辨率特征图,实现多个特征图的特征信息融合。由于网络模型采取保持高分辨率的策略,使得网络模型具有较高的参数量和复杂度。Lite-HNet4 将 ShuffleNet5 中的高效组卷积模块应用于 HNet 中,大幅度减少了参数量,同时表现出良好的性能。组卷积6 是将输入层的不同特征图进行
11、分组,然后采用不同的卷积核对各个组进行卷积,降低卷积结构的计算量。DwiseConv(Depthwise Convolution)7 作为一种比较特殊的组卷积,相对于传统卷积的优点是在计算量上有巨大幅度的降低。将通道注意力整合到卷积块中引起了广泛的关注,在性能提升方面表现出了巨大的潜力,其中一个代表性的方法是 SENet 8,它学习每个卷积块的通道注意力,为各种深度CNN 体系结构带来了明显的性能增益。在上述模型设计的启发下,提出了一个轻量级姿态估计网络 DU-HNet(Diverse Unit HNet)。首先,分析了 HNet 模型的基本组成,在 HNet 中的高分辨率设计模式的基础上,设
12、计了 DU-HNet 模型结构的不同阶段。考虑到 CNN 的深度、通道数目对模型的参数量和计算量的影响,相较于 HNet,重新设置了 DU-HNet 模型在不同阶段的多分辨率模块数目。接着在不同阶段多分辨率模块的分支中使用一系列预定义的卷积单元,该卷积单元使用 DwiseConv 深度卷积代替常规的 3 3 卷积来减少模型参数量和计算量。为了探索并增强来自不同感受野大小层的多尺度信息,鼓励卷积层间信息更加多样化,DU-HNet 允许并行分支中的每一分支拥有不同类型的高效卷积单元。为了改善网络模型的非线性,以及实现对特征权重的再分配,使用通道注意单元提升网络性能。在 MS COCO 9 关键点检
13、测数据集和 MPII 10 数据集上的实验结果表明,本文的模型在复杂度较低的条件下具有很强的竞争力。1相关的工作1 1人体姿态估计自上而下的方法将关键点的检测过程解释为两个阶段,即首先从图像中定位并裁剪所有人形框,然后解决裁剪后的姿态估计问题。卷积姿态机(ConvolutionalPose Machine,CPM)11 使用顺序化的卷积架构来表达空间信息和纹理信息,网络分为多个阶段,每一个阶段都有监督训练的部分。Hourglass12 属于一种沙漏型的网络结构,该网络结构能够使同一个神经元感知更多的 上 下 文 信 息。CPN(Cascaded Pyramid Net-work)13 结构利用
14、 Mask-CNN14 的部分结构检测人体,之后实现关键点检测。HNet 通过在整个过程中反复进行信息交换来实现多尺度融合。自下而上的方法直接预测所有关键点,然后将关键点组合为人的姿态。OpenPose15 网络框架分为两支路,一路使用热力图进行关节点预测,同时另一路用于关节点分组,两支路进行联合学习和预测。Newell等16 使用堆叠沙漏网络进行热图关键点预测和分组。分组方法是通过关联嵌入完成的。HigherHNet17 使用了 HNet 网络主干结构,在末端使用高分辨率特征图,提高了准确率和模型的运算复杂度。1 2高效卷积单元在轻量级网络中,可分离卷积和组卷积的使用越来越广泛。Mobile
15、NetV218 为了获得更多特征先使用了 1 1 的卷积核进行升维,然后用 3 3 的空间卷积核,最后再用 1 1 卷积核进行降维。Osokin19 在OpenPose20 的基础上通过使用部分 MobileNetV2 结构修改主干网络进行轻量化改进,使得整体网络能在 In-tel 的 CPU 上实时运行。1 3权重信息分配注意力模块通过卷积特征的学习实现对特征通道信息重新分配权重。SENet8 模块主要通过全局平均池化方法来建模特征通道之间关系。CBAM21 在此基础上考虑了通道关系和空间关系,并单独生成注意力图。ECANet22 基于 SENet 提出了一种不降维度的局部跨信道交互策略。C
16、oordAttention23 网络在捕捉特征图通道之间关系的前提下,有效地将空间方向的信息保存在注意力图中。Liu 等24 提出了极化自注意力机制,用于解决像素级的回归任务。2DU-HNet首先,回顾原始的 HNet 的网络架构;然后,基于HNet 网络模型为基础架构,通过分析把拥有不同卷01测控技术 2023 年第 42 卷第 7 期积内核高效卷积单元应用于 HNet 不同阶段。在网络不同阶段的相同分辨率的并行分支中使用 5 5 和3 3 卷积内核的单元,增强来自不同感受野大小层的多尺度信息,在保证网络模型性能的同时,达到轻量型网络模型的目的。2 1HNet如图 1 所示,HNet 在第 1 阶段从一个高分辨率的主干开始,逐渐添加一个高到低分辨率的分支作为新阶段。多分辨率分支是并行连接的,主体由 4 个阶段组成,在每个阶段,跨分辨率的信息都会反复交换。HNet 网络模型主要包含 4 个阶段,阶段 1 特征图分辨率为输入原图 1/4,该阶段包含 4 个残差连接卷积单元,其中每个单元由 Bottleneck3 组成。然后经过一个 3 3 的卷积,将特征图的通道数降低至 C。阶段 2、阶