基于深度学习的3D人体姿态估计研究综述

资源描述

1、2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.41171172023.022023.02收稿日期：2022-10-17基金项目：安徽省自然科学基金面上项目（2208085ME128）基于深度学习的 3D 人体姿态估计研究综述胡佳琪1，王成军2，杨超宇2（1.安徽理工大学计算机科学与工程学院，安徽淮南 232001；2.安徽理工大学人工智能学院，安徽淮南 232001）摘要：人体姿态估计作为计算机视觉热门研究领域之一，文章首先分析 2D 人体姿态估计，提出增加深度信息的 3D

2、人体姿态估计。其次，对当前基于深度学习的 3D 人体姿态估计的研究成果进行阐述，针对单人人体姿态估计和多人人体姿态估计，从单目图像、多目图像两个方向，提出不同模型在估计精度、姿态遮挡等难题方面的解决方案。最后，利用公共数据集对比分析各算法的性能指标并展望其未来发展趋势。关键词：3D 人体姿态估计；深度学习；关键点估计；估计精度中图分类号：TP391.4 文献标识码：A 文章编号：2096-4706（2023）04-0117-05Research Review of 3D Human Pose Estimation Based on Deep LearningHU Jiaqi1,WANG Ch

3、engjun2,YANG Chaoyu2(1.School of Computer Science and Engineering,Anhui University of Science&Technology,Huainan 232001,China;2.School of Artificial Intelligence,Anhui University of Science&Technology,Huainan 232001,China)Abstract:Human pose estimation is one of the hot research fields of computer v

4、ision.Firstly,this paper analyzes 2D human pose estimation and proposes 3D human pose estimation with depth information.Secondly,the current research results of 3D human pose estimation based on deep learning are described.For single human pose estimation and multiple human pose estimation,from two

5、directions of monocular image and monocular image,the solutions of different models in estimation accuracy,pose occlusion and other difficulties are proposed.Finally,the performance indicators of each algorithm are compared and analyzed using the common data set and its future development trend is p

6、rospected.Keywords:3D human pose estimation;deep learning;key point estimation;estimation accuracy0 引言3D人体姿态估计作为计算机领域中一个特征识别任务，在计算机动画影视制作、行为识别、姿态跟踪、人体活动分析等领域都有着广泛应用前景。基于深度学习的 3D 人体姿态估计（3D Human Pose Estimation,3D HPE）任务是在利用2D 人体姿态估计定位并识别出人体关键点基础上增加关键点之间深度信息，利用给定图像或视频获取人体关节点或部位的 3D 位置。因此 3D HPE 所蕴含的

7、信息更多，对姿态的描述更加精准，应用领域也更广。但因人体姿态特性和精准标注 3D Ground True（GT）数据的获取难度较大，使 3D 姿态估计难度要远高于 2D 姿态估计。本文将从深度学习方向将人体姿态估计分为基于单目和基于多目两大类进行概括，同时从单人姿态估计和多人姿态估计两方面对基于单目图像的方法进行介绍。论文将阐述现有深度学习的 3D HPE 方法所面临的挑战；介绍不同方法研究进展、算法框架和性能，对主流算法使用的数据集及评价指标；最后对人体姿态估计的未来发展进行展望。DOI:10.19850/ki.2096-4706.2023.04.0301 问题与挑战在人体姿态估计研究领域发

8、展过程中，传统人体姿态估计方法通过人工设定的方向梯度直方图1（Histogram of Oriented Gradient,HOG）和尺度不变特征转换（Scale-Invariant Feature Transform,SIFT）进行特征提取和压缩特征空间维度的高层次信息来实现人体姿态估计。但传统算法受制于图像中的不同视角、遮挡和固有的几何模糊性的影响，也因部件模型的结构单一，导致传统方法适用范围受限。基于深度学习的人体姿态估计方法2主要是利用 CNN对图像或视频帧的姿态特征进行提取，对表征学习能力更强且对姿态的估计精度更高。此方法不仅易于实现，还可提取出特征鲁棒性更强的卷积特征，获得不同感受

9、野下关节点特征，更准确获得人体姿态结构模型。相对 2D 人体姿态估计，标准 3D 人体运动捕捉系统常配置在实验室场景并需要标记多个摄像机的相机参数，但这些设备价格昂贵且调试复杂，在自然场景中难以推广应用；同时因环境受限还会导致运动受限，从而造成尺度和多样性受限。人体作为非刚性对象更易变形或产生微妙姿态，并伴有遮挡情况发生，使深度信息不明确，极易降低 3D 估计精度。现实世界应用模型需要对人体遮挡和低分辨率（人物只占图像少部分）场景具有鲁棒性，并进行实时处理。基于深度学习的 3D 人体姿态估计方法分类，如图 1 所示。1181182023.022023.02第 4 期现代信息科技3D人体姿态估计

10、方法分类单目场景多目场景单人姿态估计多人姿态估计直接法重建法自顶向下自底向上图 1 3D 人体姿态估计研究方法分类2 单目人体姿态估计因单目图像采集较易获取且不受场景限制，基于单目图像的人体姿态估计研究较多。根据是否依赖 2D 人体姿态估计器，单人场景下单目图像 3D 人体姿态估计的方法可分为直接法、重建法两类；多人场景下单目图像 3D 人体姿态估计的方法可分为自顶向下和自底向上两类方法。2.1 单人场景下单目 3D HPE2.1.1 直接法基于直接法的人体姿态估计也常被称为基于直接回归或端到端的人体姿态估计法，可直接将预测 RGB 图像放入CNN 网络进行回归特征提取，预测出 3D 关键点坐

11、标，而不使用 2D 姿态作为中间表示。虽然直接法可更好地利用原始图像中的信息，但直接从图像空间进行回归，计算成本较高，且对于未知运动姿态和相机位置的推广具有局限性。近期研究中，Wandt3等人提出 RepNet 框架，利用 GAN 网络通过生成器与判别器对已得出姿态交替训练，实现对位置姿态估计；利用摄像机网络得出相机参数实现对相机位置估计。但RGB 图像直接回归到 3D 关键点坐标的映射，可能存在多个不同 3D 姿态的 2D 投影对应相同 2D 姿态，这是使用直接法通过单目图像进行姿态估计存在的不足。2.1.2 重建法为了改进自然场景下模型的泛化能力，现有研究提出在2D 姿态估计网络基础上，将

12、 3D 姿态估计任务分解为两个独立的阶段，在第一阶段中使用 2D 姿态估计方法，利用外观信息定位图像中的 2D 人体关键点位置得到 2D 姿态标注；在第二阶段，利用几何信息将 2D 姿态提升至 3D。故被称为重建法或两阶段法。利用重建法分阶段处理可降低在数据采集过程中对图像预测的偏差，但图像以 2D 姿态作为中间表示通常是伴有噪声。3D 姿态估计器高度依赖 2D 姿态估计，3D 姿态估计网络的准确性也会受到 2D 姿态估计数据偏差的影响。在进化后的增强训练数据集中，Li4等人提出了 TAG-Net 模型，由精确的 2D 联合检测器和新型 2D-3D 级联网络组成的深层架构，如图 2 所示，在第

13、一阶段通过 2D 联合检测器对 2D 关键点估计；第二阶段的 2D-3D 级联网络将 2D 关键点作为输入，利用级联残差网络得到 3D 关键点坐标并在姿态优化网络减少噪声影响，实现无 GT 标注下利用先验知识定义进化算子，预测 3D 人体骨架。合成骨架被投影至 2D 热图，并形成 2D-3D 对，以用于 2D-3D 网络数据增强。Xu5等人将人体运动遵循 2D-3D 对应关系和运动学定律引入到深度模型中，设计受透视投影约束的 2D 关键点优化方案。利用透视投影对 2D 姿态细化并利用先验知识，对含噪2D输入实现运动学结构校正，排除不可靠关节点；同时，利用更可靠的部件完成 3D 轨迹重建。+.第

14、一阶段第二阶段-A第二阶段-BResBlock1ResBlock2ResBlock3ResBlock NRGB图片HRM热图回归模型 2D HeatMap-2D热图2D关键点坐标X(XR2*K)3D关键点坐标Y(YR3*K)(3D资态优化)整合ResBlock(3D资态估计)最终3D资态估计结果(2D资态估计)图 2 TAG-Net 模型人体骨骼的拓扑结构可以被视为图结构，因此越来越多的实验开始尝试使用图卷积网络（GNN）实现由 2D-3D 姿态估计任务。图模型通常使用树结构来描述人体结构之间约束关系，通过图推理的方式对 3D 人体姿态进行估计。图模型结构一般将人体模型表示为一个无向图，定义为

15、 G=V,E，其中顶点 V=v1,vn 对 n 个人体姿态关键点，对于每一对相互连接的人体部位 vi和 vj都有边(vi,vj)E。近期研究对于人体姿态估计关键点个数一般设为如图3所示的16个关节点。图 3 人体姿态估计关键点现有基于 GCN 方法已利用所有节点信息，但只在单尺度上处理特征，未充分利用模型深度信息所包含的中间特征和空间信息特征。多尺度和多层次的特征提取概念提出后，使模型拥有更强的表征提取能力。Xu6等人提出图堆叠沙漏网络，利用池化和反池化实现数据的下采样和上采样，不断重复编码图沙漏网络，融合多层次中间特征实现特征提取，实现高精度的 2D-3D 人体姿态估计。2.2 多人场景下单

16、目 3D HPE随着单人姿态估计模型估计精度的提升，近期研究重点已转向多人场景下的 3D 姿态估计。多人场景下的单目 3D人体姿态估计主要有自顶向下和自底向上两种思路，两种方法的对比如表 1 所示。2.2.1 自顶向下方法自顶向下方法首先用目标检测算法的检测器检测出完整人体姿态的边界框，根据算法获得人体边界框中根关节点的绝对坐标，并由根坐标上计算其他关节相对坐标。其中Rogez 等人7用分类器判别，回归器进行细化后得到边界框，将其分为 k 类位姿的集合。在拥挤场景下，此方法则预测候选框位置可能会包括他人部分肢体，无法准确定位关节点相对位置。1191192023.022023.02第 4 期Benzine 等人8研究后发现，针对基于 AlphaPose 框架的锚框姿态预测网络，可引入重叠感知锚框代替体积热图，以存储完整的 3D 姿态。此方式可直接避免多人重叠造成的关节遮挡问题，且允许低分辨率输出。同时提出自动优化尺度和关节权重解决人体姿态分布不平衡带来的问题。Li等人9提出新的评估基准衡量算法在拥挤场景下的性能，并提出了一种对每个关节和全局最大关节关联执行多峰预测的方法来解决拥挤人群中的

展开阅读全文

基于深度学习的3D人体姿态估计研究综述_胡佳琪.pdf