基于HRNet的轻量化人体姿态估计网络

资源描述

1、第 50 卷第 2 期2 0 2 3 年 2 月Vol.50，No.2Feb.2 0 2 3湖南大学学报（自然科学版）Journal of Hunan University（Natural Sciences）基于HRNet的轻量化人体姿态估计网络梁桥康 1，吴樾 2（1.湖南大学电气与信息工程学院，湖南长沙 410082；2.航天江南集团有限公司，贵州贵阳 550009）摘要：由于算力和内存的限制，目前的人体姿态估计网络难以广泛应用于移动设备、嵌入式平台.针对这个问题，本文以HRNet为基础框架，提出了一种轻量化的人体姿态估计网络X-HRNet，使用ResNeXt模

2、块替换普通的Basic模块以减少网络的参数和计算复杂度.实验结果表明，所提出模型在COCO验证集上取得了78.2%的精度，比HRNet高1.9%，参数量下降了22.2M，计算量下降了 27.3GFLOPs.与以往的轻量化人体姿态估计方法不同，所提出的 X-HRNet是一种兼顾精度和轻量化的方法，在保持精度的同时有效减少了计算量和参数量，为嵌入式平台提出了一种新的轻量化人体姿态估计网络.关键词：人体姿态估计；深度学习；卷积神经网络；轻量化；深度可分离卷积中图分类号：TP183 文献标志码：ALightweight Human Pose Estimation Network Based on HR

3、NetLIANG Qiaokang1，WU Yue2（1.College of Electrical and Information Engineering，Hunan University，Changsha 410082，China；2.Aerospace Jiangnan Group Co.Ltd.，Guiyang 550009，China）Abstract：The current human pose estimation networks are difficult to be widely used in mobile devices and embedded platforms d

4、ue to the arithmetic power and memory limitations.To address this problem，this paper proposes a lightweight human pose estimation network X-HRNet with HRNet as the basic framework and uses the ResNeXt module to replace the common basic module to reduce the parameters and computational complexity of

5、the network.The proposed model achieves 78.2%accuracy on the COCO validation set，which is 1.9%higher than that of the HRNet，the number of parameters decreases by 22.2M，and the computational effort decreases by 27.3 GFLOPs.The proposed X-HRNet is a method with the combination accuracy and lightweight

6、，which proposes a new lightweight human pose estimation network for embedded platforms by reducing the computation and the number of parameters effectively while maintaining accuracy.Key words：human pose estimation；deep learning；convolutional neural network；lightweight；depthwise separable convolutio

7、n 收稿日期：2022-03-04基金项目：国家重点研发计划资助项目（2021YFC1910402，2022YFB4703103），National Key Research and Development Program of China（2021YFC1910402，2022YFB4703103）；国家自然科学基金资助项目（NSFC62073129，U21A20490），National Natural Science Foundation of China（NSFC62073129，U21A20490）；湖南省自然科学基金资助项目（2022JJ0020），Natural Science

8、Foundation of Hunan Province（2022JJ0020）作者简介：梁桥康（1982），男，湖南涟源人，湖南大学教授通信联系人，E-mail：文章编号：1674-2974（2023）02-0112-10DOI：10.16339/ki.hdxbzkb.2022249第 2 期梁桥康等：基于HRNet的轻量化人体姿态估计网络人体姿态估计是计算机视觉中最基本和最具有挑战性的任务之一，旨在从图像或者视频序列中检测并识别人体关键点的位置和类型.其在行为识别1、自动驾驶和行人检测2等后续任务中具有广泛的应用.近年来，随着深度神经网络（Deep Neural Networks，DNN

9、）的不断发展，DNN在计算机视觉领域得到了广泛的应用并取得了巨大的成功，人体姿态估计取得了显著的进展.早期的基于卷积神经网络的（Convolutional Neural Networks，CNN）方法直接从图像中预测关节点的位置，DeepPose3利用深度神经网络直接从图像中回归关键点坐标，这种方法很难获得精确的坐标，而且网络的收敛速度非常缓慢.Tompson等人4使用马尔可夫随机场为每个关节点创建一个与其他关节点相关的图模型（Graphical Model）结构，并利用热力图表示关节点信息，热力图数值的大小表示该位置是关节点的概率大小，热力图中最大值的坐标即为关节点的坐标.由于热力图可以通过

10、卷积操作直接得到，因此，使用热力图表示关节点位置这一方法很大程度上促进了基于CNN的人体姿态估计方法的发展.现有的大多数人体姿态估计方法都是基于热力图预测.Huang等人5提出了一种由无偏坐标系统变换和无偏关键点格式变换组成的无偏数据处理（Unbiased Data Processing，UDP）系统，该系统可以很容易地与任何人体姿态估计网络相结合，进一步提高预测精度.DARK（Distribution-Aware Coordinate Representation of Keypoints）6提出了一种基于泰勒展开的坐标解码和无偏亚像素中心坐标编码方法.目前，多人姿态估计主要有两种主流策略，

11、即自上而下和自下而上两种方法.自上而下的方法需要先检测出人体边界框，然后对识别到的人体进行单人姿态估计.自下而上的方法不进行人体框的检测，而是直接检测出所有的关键点，然后将它们进行分组.自上而下的方法精度更高但是会牺牲速度，而且受人体框检测精度的影响.自下而上方法速度更快但是精度相对不高，现有的自下而上方法主要集中在如何将检测到的属于同一个人的关节点关联在一起.OpenPose7提出部分亲和力场（Part Affinity Fields，PAFs）的概念，PAFs存储了肢体的位置和方向信息，结合预测的热力图快速地将各关节点分组到每个人.Kreiss等人8提出用部分强度场（Part

12、 Intensity Field，PIF）来表示关节点的位置和用部分关联场（Part Association Field，PAF）来表示关节点之间的关联，利用部分关联场特征将属于同一个人体的关节点关联起来.DEKR（Disentangled Keypoint Regression）9提出了一种多分支结构的解耦关键点回归方法，每个分支分别对特定关键点进行独立的特征提取和回归，实现了关键点之间的解耦，解耦后的特征能够独立地表示特定关键点区域.Pishchulin等人10提出把所有的关节点作为节点形成一个图结构，然后利用预测的人体框信息，将属于同一个人的关节点归入同一个类别.AE（Associati

13、ve Embedding）11提出了一个端到端的单阶段网络，同时为每个关节点生成热力图和分类标签，标签值接近的关节点属于同一个人.CPM（Convolutional Pose Machines）12通过序列化的多阶段网络逐步细化关键点预测，利用中间监督信息可以有效地解决梯度消失的问题.Chen 等人13提出了一个两阶段的级联金字塔网络，前一阶段用于预测一个粗略的姿态，后一阶段在前一阶段的基础上改进预测结果.模拟人类认知的过程，即先注意能够直接看到的关节点，然后利用已知的关节点信息推测出看不见的部分，RSN（Residual Steps Network）14提出了姿态调整机，能够进一步细化初始姿

14、态，提高姿态估计的精度.HRNet（High Resolution Net）15以一个高分辨率的子网络作为第一阶段，之后的每个阶段比前一阶段多一个并行的低分辨率子网络，在同一阶段内，不同分辨率子网络的信息被反复融合，这种保持高分辨率特征的策略能够显著提高人体姿态估计的精度.由于算力和内存限制，移动设备和嵌入式平台不适合部署大型网络16，因此，目前的人体姿态估计网络难以得到广泛应用.Osokin等人17利用减少细化阶段层数减少网络参数量和使用空洞卷积提升感受野的大小等方法提出了一个轻量化的Openpose网络，在 CPU 上实现了实时的人体姿态估计.Lite-HRNet18提出条件通道加权，从所

15、有通道中学习权重，实现跨通道和分辨率交换信息，与其他轻量化网络相比，取得了更好的精度.Zhang等人19构建了一个轻量化的沙漏网络，利用快速姿态蒸馏模型学习113湖南大学学报（自然科学版）2023 年策略，能够更有效地训练轻量化人体姿态估计网络.与以往的轻量化人体姿态估计方法不同，本文提出了一种兼顾精度和轻量化人体姿态估计网络，在保持精度的前提下有效地减少了网络的计算量和参数量，为移动设备、嵌入式平台等运算能力、内存大小有限的设备提出了一种有效的轻量化人体姿态估计网络.1 轻量化网络设计增加网络的容量（更深或更宽）能够促使网络提取到更加复杂、高级的特征信息，可以相对容易地提高网络的精度.然而，

16、网络的性能并不会随着网络深度或宽度的递增线性地增长，可能会出现性能饱和甚至下降，网络的参数量和内存消耗量也会越来越高，其对硬件计算能力和内存的要求也增大.动态卷积20根据注意力程度动态地聚合多个卷积核，能够在不增加网络深度和宽度的条件下增加模型的复杂度.Inception21提出的在同一模块中使用不同尺寸的卷积核，使得网络能够自主地提取不同尺寸目标的特征.Szegedy等人22提出使用两个一维卷积核替代一个二维卷积核，以此来减小网络的参数量.ResNet（Residual Net）23提出残差学习来解决网络退化的问题，其提出了两种不同的残差块，Basic 块和 Bottleneck块，如图1所示.ResNet模块可表示为：y=x+F(x)（1）式中，x为输入特征，y是输出特征，F()是ResNet学习到的映射变换，残差连接的主要优点是特性再利用，可以减少特性冗余.当输入特征大小为Hin Win Din，输出特征大小为Hout Wout Dout，卷积核大小为S S时，标准卷积可学习的参数量为：Ps s=S2 Din Dout（2）Basic 块由两个3 3卷积组成，当保持特征输入输出通

展开阅读全文

基于HRNet的轻量化人体姿态估计网络_梁桥康.pdf