基于全局特征信息感知网络的二维人体姿态估计.pdf

资源描述

1、第卷第期年月北京信息科技大学学报 .文章编号:():/./.基于全局特征信息感知网络的二维人体姿态估计梁国政罗倩张帆郭亚男(.北京信息科技大学信息与通信工程学院北京.北京信息科技大学信息产业部重点实验室北京)摘要:针对高分辨率网络()在人体姿态估计任务中全局特征信息获取能力不足导致的人体关键点预测不够准确的问题提出一种基于全局特征信息感知网络的人体姿态估计模型该模型采用双分支结构包括分支和全局特征信息感知分支其中全局特征信息感知分支中全局特征信息获取模块将图片分割成多个序列块再通过编码器获取其全局特征最后通过全局特征信息融合模块将全局特征信息高效地嵌

2、入分支中在数据集和数据集上的实验结果表明与其他传统的人体姿态估计模型相比改进后模型的精度有明显提升关键词:深度学习人体姿态估计特征融合关键点估计中图分类号:文献标志码:(.):().:收稿日期:作者简介:第一作者:梁国政男硕士研究生通信作者:张帆女博士副教授引言人体姿态估计是计算机视觉领域的重要课题之一其目的是从给定的图像或视频中检测人体关键点的位置信息得到人体骨架图根据检测人物数量的不同人体姿态估计分为单人人体姿态估计和多人人体姿态估计卷积神经网络为单人人体姿态估计提供了一个良好的解决方案等率先提出将卷积神经网络应用于人体关键点检测将整幅带有人物的图片放入七层卷积神经网络

3、做人体关键点回归同时使用级联的卷积神经网络检测器提高关键点的预测准确度等侧重于使北京信息科技大学学报第卷用深层卷积神经网络提取人体关键点之间的内在联系并回归热图提高模型预测结果的稳定性等提出先获取不同尺度下的人体关键点的特征图再将对应的关键点累加得到最终的关键点特征图多人人体姿态估计分为自顶向下的方法和自底向上的方法自顶向下的人体姿态估计方法先利用检测器检测出图片中的人物然后对人物进行姿态估计例如等在每个关键点的像素位置生成一个标记之后用检测值匹配与其最接近的标记值对人体关键点进行预测从而实现人体姿态估计等提出的网络模型以整个图像为输入用双分支卷积神经网络来联合预测人体关键点

4、其中一个分支用于回归人体关键点另一个则回归人体关键点之间的连接最后将人体关键点连接起来形成完整的人体姿态等提出根据人物尺度大小动态地调整热图高斯核的标准差解决了由于目标人物尺度差异引起的检测率不高的问题等提出的网络利用多个分支关注每个关键点周围的像素特征并利用这些特征回归关键点的位置从而提高了人体关键点检测的准确率等提出一种高分辨率网络()为了减少在下采样和上采样过程中特征信息的损失摒弃了之前特征图分辨率由高到低再到高的思想特征图全程都用高分辨率表示并且不同分辨率特征信息进行多次融合最后输出高分辨率特征图自底向上人体姿态估计方法是检测出图片中人物的关键点然后将关键点逐一连接形成人体姿态

5、例如等将多个沙漏网络堆叠前一个沙漏网络输出的关键点热图作为后一个沙漏网络的输入因此后一个沙漏网络可以捕捉前一个热图中各个关键点之间的联系从而提升了关键点的预测精度等同时预测关键点的位置和关键点之间的偏移量对于两个相距较远的关键点使用循环优化方法来得到精确的位置最后模型使用贪婪解码的方式分配关键点到对应的目标人物中等提出的模型对于一些外观相似而难以区分的关键点如肘关节与膝关节等通过使用注意力模块提取这些关键点周围其他特征信息来确定关键点的归属虽然目前的人体姿态估计方法已经取得了不错的效果但是仍然受到卷积核感受野大小的限制对图片全局信息的感知能力不足对此本文以为基础框架提出基于全局特征信

6、息感知网络的二维人体姿态估计全局特征信息感知网络借助全局特征信息获取模块对输入图片进行分割将其变换为一维序列然后通过编码器中多头注意力机制获取各个部分的特征信息最后通过全局特征信息融合模块与进行融合提升模型对图片全局特征信息的感知能力二维人体姿态估计方法.整体框架本文的网络模型如图所示分为和全局特征信息感知两个支路分支从左至右分为个阶段后一阶段并行子网比前一阶段多一个额外的低分辨率子网在每一阶段中并行的子网络之间通过上采样和下采样进行重复的多尺度融合最后由第四阶段的高分辨率子网络输出的特征图进行人体关键点预测图模型结构全局特征信息感知分支包括全

7、局特征信息获取模块和全局特征信息融合模块全局特征信息获取模块先将图片分割为多个图像块再将各个图像块通过卷积转换为一维序列输入至编码器中经过多头注意力机制将不同特征信息结合起来形成图片的全局特征信息然后将全局特征信息与分支中第三阶段低分辨率子网络特征图进行拼接最后全局特征信息融合模块对特征图的空间维度和通道维度分别进行一系列池化、卷积和激活操作实现对特征图的空间特征和通道特征权重分配从而生成分支中第四阶段的最低分辨率子网络并且该子网络参与后续第四阶段的多尺度融合完成全局特征信息的嵌入.分支该分支以为主体将图片经过两个第期梁国政等:基于全局特征信息感知网络的二维人体姿态估计卷积核输出

8、的特征图作为第一阶段输入逐步下采样添加低分辨率子网形成新的阶段不同分辨率子网之间进行多尺度融合以确保不同分辨率特征图的信息能够融合最终输出高分辨率特征图每个阶段形成新子网络的公式为 ()()式中:为每个阶段的输出为每个阶段的输入()表示每阶段结束进行的降采样操作()表示每阶段间各个子网进行多尺度融合.全局特征信息获取模块为了提高模型对图片全局信息的感知能力本文利用模型构建全局特征信息获取模块模块结构如图所示图全局特征信息获取模块结构首先给定任务图片和分别为图片的高和宽将切割成个部分由式()计算得出 /()式中:为切割后每个图像块的边长接着利用大小为的卷积核对每个图像块进

9、行卷积并将其变成一维序列再将序列输入编码模块中其公式如下:()()式中:为第个图像块生成的一维序列()函数对卷积后的图像块进行扁平化处理使其变为一维序列表示的卷积操作为输入的第个图像块编码模块主要由多头自注意力组成将输入经权重矩阵线性映射为()、()、():()()()()()()式中:和分别为图像块序号和单头注意力的数目、和为权重矩阵然后匹配()与()之间的距离即计算两个向量之间的加权内积其运算公式如下:()()/()式中:为两个映射之间的加权内积为()与()的维度为了避免两个向量的内积因为维度而增大此处对其做归一化处理通过式()得到单头注意力值 ()()()最后将取得的

10、单头注意力进行拼接拼接后的结果通过权重矩阵进行融合得到多头注意力值:()()式中:()表示拼接操作编码模块的输出经过张量转换得到特征图综上可知原始图片经过结构首先被分割成多个图像块图像块被映射为向量然后编码模块提取每个图像块的特征信息最后多头注意力机制将来自不同单头注意力提取到的特征信息结合起来完成图片全局信息的获取.全局特征信息融合模块为了将获取的全局特征信息有效地嵌入模型中本文提出全局特征信息融合模块对全局特征信息进行空间和通道加权将与人体关键点相关的特征信息赋予较高的权重比例对其他无关特征信息赋予相对低的权重比例从而使得全局特征信息高效地嵌入分支融合过程如图所示图全局特

11、征信息融合模块结构具体融合步骤为:)把全局特征信息获取模块输出的特征图与低分辨率分支的特征图进行拼接经过卷积操作并激活后得到融合模块的输入其过程可表北京信息科技大学学报第卷示为 ()()式中:为激活函数表示的卷积操作)对输入特征图分别沿高和宽进行平均池化和最大池化操作得到两个向量两个向量通过全连接层后相加采用激活函数得到注意力向量与输入特征图相乘获得特征图该过程可表示为 ()()()式中:表示全连接操作和分别表示平均池化操作和最大池化操作)对特征图沿通道进行平均池化和最大池化操作得到两个向量将两个向量按通道拼接并经过卷积变换和激活得到注意力向量与特征图相乘取得最终特征

12、图其运算过程如下:()()()式中:表示的卷积操作)通过损失更新模型参数其表达式为()()()()()()式中:为超参数本文设定为为真实值()为预测结果采用分段损失当预测值与真实值的误差绝对值小于或等于超参数时随着函数梯度的逐渐减小模型也逐渐取得最优值当预测值与真实值的误差绝对值大于超参数时函数梯度近似为超参数保证模型快速更新参数以取得最优解实验与分析.数据集本文采用数据集和数据集进行实验数据集中用到训练集图像约万张测试集图像约万张每个目标人物都标注了个关键点数据集中用到训练集图像约张测试集图像约张每个目标人物都标注了个关键点.评估标准数据集中的样本图片

13、主要为多人场景因此选用侧重于多人姿态估计任务的人体关键点相似度()作为评估指标而数据集中的样本图片主要以单人场景为主因此选取侧重于单人姿态估计任务的正确关键点头部归一化概率()作为评估指标的计算式为 /()()()式中:为目标人物的编号为关键点编号为标注与预测关键点的欧氏距离为数据集中第个目标人物的第个关键点的标注当取值为时表示关键点未标注此时函数()的值为当取值为时表示关键点已标注且没有被遮挡此时函数()的值为当取值为时表示关键点已标注但被遮挡此时函数()的值为为检测尺度大小是第个关键点的归一化因子使用平均精度()表示为.时的平均检测准确率和分别表示

14、.、.时的检测准确率和分别表示中等尺寸目标和大尺寸目标的检测准确率的计算式为()式中:为目标人物的编号为关键点编号为标注与预测关键点的欧氏距离为第个目标人物的尺度因子为常数(一般 .)为头部框对角线的长度时表示第个目标人物的第个关键点预测正确此时函数()的值为.实验设置本文实验基于 .位系统使用块显卡深度学习框架为 .数据集中的图像大小缩放至数据集中的图像大小缩放至此外测试过程中数据集和数据集的参数设置相同训练轮数()为使用的网络模型优化器为初始学习率为数据集的批处理大小()为第期梁国政等:基于全局特征信息感知网络的二维人体姿态估计 .实验结果与分析.

15、消融实验为了证明融合模块以及全局特征提取模块对模型性能的影响本文进行了消融实验实验结果如表所示实验代表本文的基础框架并未进行全局特征提取和支路融合实验代表在基础上进行全局特征提取但没有使用融合模块将两个支路融合实验代表本文的方法即使用融合模块将全局特征信息和基础框架的特征融合由实验结果可知实验比实验的准确率提升了.证明全局特征提取有利于模型检测准确率的提高实验比实验的准确率提升了.证明融合模块能够有效地将全局特征信息嵌入模型网络中提升模型的检测准确率实验比实验的准确率提升了.验证了本文模型中全局特征信息获取模块和全局特征信息融合模块的有效性表消融实验编号全局特征信息融

16、合模块全局特征信息获取模块.数据集实验本文模型与其他先进模型在数据集上的对比实验结果如表所示可以看出本文方法在各项指标上性能最优以性能为例本文方法与方法相比提升了.与基准方法相比提升了.与方法相比提升了.与方法相比提升了.表数据集实验性能比较网络模型.本文方法.数据集实验本文选用阈值为.的 .作为评估标准评估的关键点为头部、肩部、肘部、手腕、臀部、膝盖和脚踝对本文方法和其他方法在数据集上进行了实验结果如表所示可以看出本文方法的检测准确率总体高于其他方案其中相比于方法性能提升了.相比于基准方法性能提升了.相比于方法性能提升了.相比于方法性能提升了.表数据集实验性能比较(.)网络模型头部肩部肘部手腕臀部膝盖脚踝均值.本文方法.模型大小和运行时间对比在硬件条件相同的情况下将模型和本文模型的参数量、每秒亿次的浮点运算数()、训练时间以及测试时间进行了对比结果如表、表所示与原模型相比本文模型在运行时间和模型大小方面以较小的代价换来人体关键点检测准确率的明显提升在数据集和数据集上准确率分别提升了.和.表模型大小与时间性能分析(数据集)

展开阅读全文