1、安阳工学院学报Journal of Anyang Institute of Technology Vol.22 No.2(Gen.No.122)Mar.,2023第22卷第2期(总第122期)2023 年 3 月DOI:10.19329/ki.1673-2928.2023.02.024基于轨迹提取的舞蹈基础训练动作跟踪方法梁 爽(合肥师范学院,合肥 230000)摘 要:为提出基于轨迹提取的舞蹈基础训练动作跟踪方法,降低复杂背景对跟踪效果的影响,助力舞蹈教学工作顺利开展,本文以舞蹈基础训练动作图像为输入构建 FasterR-CNN 模型,模型输入层依据各个舞蹈基础训练动作特点进行分类,并抽取每
2、个分类的图像;将其输入到识别层获取舞蹈基础训练动作的分类与定位结果;关联层利用最小参照点投映间隔长度关联多幅图像的舞蹈基础训练动作定位结果,获得动作持续运动参照点位;参照点位经过拟合层拟合后,完成舞蹈基础训练动作轨迹提取;通过傅里叶变换将提取轨迹的跟踪过程视为相应函数的优化过程,实现舞蹈基础训练动作轨迹跟踪。实验结果表明,该方法可以准确地拟合出完整的舞蹈基础训练动作轨迹,同时可有效跟踪舞蹈基础训练动作的多个点位,未出现点位缺失或偏移情况,且动作跟踪完整度受背景复杂度影响较小。关键词:舞蹈动作;轨迹提取;目标跟踪;FasterR-CNN;关联动作;动作提取中图分类号:TP273 文献标志码:A
3、文章编号:1673-2928(2023)02-0124-05 在舞蹈教学中,当涉及某个特定的基础训练动作或舞蹈技术问题时,舞蹈老师不仅要做相应的基本动作,而且要对舞蹈基础训练动作进行相应的解释,这会给舞蹈教学中带来很多的不便,所以需要对舞蹈过程中的动作进行提取和跟踪,以便更好地完成舞蹈教学工作。针对舞蹈基础训练,可将其视为一种运动目标,运动目标动作跟踪是指在不同时间点追踪相同运动目标的运动轨迹,是研究运动分解、探索运动目标运动规律、为人类决策提供依据的重要科学手段1。同时,为保证运动目标的实时性和一致性,必须对各个动作进行关联性分析,其中关联行为包含目标状态评估、匹配更新目标等一系列过程,因而
4、跟踪算法一般都要具备 3 个方面:鲁棒性、精确性、实时性。鲁棒性反映了跟踪过程中的抗干扰性,在特定情况下需要具有一定的自恢复功能;精确性是指在保证跟踪精度的前提下,能给出目标的大概方向和姿态信息;实时性指显示追踪方法必须具有快速的计算速度,以确保追踪效果的正确性2。针对运动物体的动作跟踪技术,目前相关领域已经进行了大量的工作。李琪等采用人体关键部位的自由度矢量法来描述人体的动作姿势,利用无迹卡尔曼滤波器实现对人体的姿态追踪,并利用双 Kinect 传感器建立了一种用于人体姿态追踪的系统。与常规的人体运动捕获相比,该方法能够精确、平稳地进行三维人体姿态的追踪,也可以在复杂的运动中体现出运动的特性
5、,并应用到评价运动的生物力学特性3。张磊等研究了一种基于跟踪差分器的轨迹追踪算法用于提高机器人运动轨迹跟踪控制的精确性和初步最大值,该算法首先利用跟踪差分器将动力学模型分解成内插点段,设置内插点选择准则和撞击力的指标,再利用目标函数进行内插,获得了由插补点拟合而成的轨迹线4。上述 2 种方法中,前者无法有效地解决目标的消失、遮挡、分离等复杂状态;而后者跟踪运算繁琐,需要对噪声和静态噪声进行运算,使得算法的适应性和追踪误差都比较大。轨迹提取是从运动物体中抽取其运动轨迹,利用物体捕获标记点,使用多向立体双相机获取舞蹈中各个分解基础训练动作图像,并依据物体的运动特征对其进行分类,再利用邻近物体的运动
6、特征行为进行目标关联5。通常利用 FasterR-CNN 进行运动物体的轨迹提取,能够迅速地找出图像位置,降低图像的搜索范围和特征的抽取用时,减少所要物体特征抽取的样本数量6-7。同时FasterR-CNN 对设备的回归精度要求不高,并且可充分运用卷积神经网络快速地对图像进行有效提取,有效地改善在复杂的场景下对运动物体的识别准确率,提升对运动物体轨迹提取的正确性8。基于对舞蹈基础训练动作有效关联和理论计算,提出一种基于轨迹提取的舞蹈基础训练动作收稿日期:2023-02-01基金项目:安徽省教育厅质量工程(2021xskc082)。作者简介:梁爽(1987),女,湖北黄石人,硕士,讲师,研究方向
7、为体育舞蹈训练与教学。第二期125跟踪方法,实现舞蹈过程中每个动作的高精度检测、快速率分解和准确稳定跟踪。1 舞蹈基础训练动作跟踪1.1 提取舞蹈基础训练动作运动轨迹FasterR-CNN 是基于局部卷积神经网络的全局对象检测方法9。基于 FasterR-CNN 模型对目标具有良好的识别性能,本文将 FasterR-CNN 模型视为本文舞蹈基础训练动作的轨迹提取方法10。FasterR-CNN 模型提取方法包括 4 个步骤:第一步,利用 FasterR-CNN 输入层对舞蹈种基础训练动作的各个特点进行分类,然后根据动作的特点对舞蹈基础训练图像进行分类并抽取每个分类的部分图像;第二步,将其输入到
8、 FasterR-CNN 识别层对舞蹈基础训练动作进行分类与定位;第三步,经过 FasterR-CNN 关联层对所定位获取的目标信息进行关联处理,获得目标持续运动的参照点位;第四步,将之前获得的参照点位经过 FasterR-CNN 拟合层进行拟合,形成一个运动轨迹,实现轨迹提取。1.1.1 舞蹈基础训练动作的分类与抽取FasterR-CNN 的输入层就像一个滤波器,其功能就是从舞蹈中的基本训练动作中抽取出各个动作的特点,通过并行方式或者多次,对各舞蹈训练动作的特点进行自动抽取,并将其组合起来,在对相似性进行对比后,根据相似性进行分类11。特征动作的抽取个数对初始特征的抽取有较大的影响。为了提高
9、抽取效率,输入层中输入图像数目应该减小12。所以本文采用近似平均抽样的方法,在一定的时间间隔内对图像进行提取13-14。将抽取的图像按时间顺序输入到 FasterR-CNN 识别层中进行分类和定位。1.1.2 确定舞蹈基础训练动作分类与定位信息将以上取样的分类图像输入 FasterR-CNN 识别层确定抽取舞蹈基础训练动作的分类和定位信息,其主要步骤是:将提取到的舞蹈动作图像作为训练样本,在每一训练动作图像中,选择等值的正、负 2 组样本待选框,使样本总数相等。如果正待选样本数目没有达到负值样本数目的情况下,使用负值的样本待选框填补空缺;再对其进行归类和定位误差分析。误差产生的原因主要有区域生
10、成网络和头部卷积神经网络。在区域生成网络和头部卷积神经网络的输出待选框的分类误差,都使用交叉熵来进行损失的估计。在待选框的位置出现错误时,利用 Q1 的平滑损耗函数来求解。识别层中最大的难点在于掩膜区域生成网络,也就是掩膜卷积层误差的逆向传播。针对此问题,本文采用以下方法:将掩膜区域生成网络的各个层次替换为普通卷积层,并将位于定位区域外的所有待选块过滤掉,具体对分类与定位误差进行计算的过程如下所示。计算区域生成网络误差为:()()1,rrrrrrrclsregceiisQiiiiQllfs sfdd=+=+(1)上式中,区域生成网络的分类、定位误差分别为rregl、rregl;rcef为交叉熵
11、函数;1rsQf为平滑Q1函数;si为区域生成网络输出的第 i 个待选框的置信得分,代表该对象的置信程度是否包括在待选块中;is为该待选框相应的数据采集的置信标签;rid表示区域生成网络输出的第 i 个待选框的修正量,rid表示该待选框移至相应数据收集待选框所用修正量。修正量包含待选框中点在 X、Y 方向上的偏移量和待选框长、宽的变化量计算头部卷积神经网络的误差为:()()1,hhhhhhhclsregceiisQiiiiQllfp pfdd=+=+(2)其中,头部卷积神经网络分类、定位误差分别为hclsl、hregl;与区域生成网络的损失计算相似,hcef为交叉熵函数;1hsQf为平滑 Q1
12、 函数;Pi表示头部卷积神经网络输出的第 i 个待选框的分类分数;ip表示该待选框对应的数据收集待选框的分类标签;hid表示头部卷积神经网络输出的第 i 个待选框的修正量,hid表示该待选框相对于对应的数据收集待选框所需的修正量。最终,FasterR-CNN 的总错误差由公式(1)和公式(2)相加求得,也就是区域生成网络与头部卷积神经网络的误差总和。然后按顺序将误差总和输进 FasterR-CNN 识别层进行辨识,输出结果就是目标动作在此张图像上的定位信息,以所有动作图像定位信息的中心位置看成该运动对象的轨迹基准点。1.1.3 舞蹈基础训练动作的关联方法目标轨迹提取的核心是多幅图象中相同的目标
13、动作关联问题15。本文根据 FasterR-CNN 识别层确定的各舞蹈动作参照点定位信息和目标框形状信息,提出了一种利用最小参照点投映间隔长度来进行多幅图象间的关联,具体方法将轨迹提取对象的目标框设定为 Z,其中含有参照点坐标以及形状信息,且用分别描述 Z 的中点位置坐标以及宽度和高度。目标框 Z 投映在抽取得出的上个图像目标框用 Z表示,其参照点坐标与形状信息的投映设置为 X、Y、J、U。投映后,算出上个图像中所有目标框参照点与投映目标框 Z参梁 爽:基于轨迹提取的舞蹈基础训练动作跟踪方法2023 年安阳工学院学报126照点间隔长度可表示成:()()22iiiSXXYY=+(3)式(3)中,
14、Si表示目标投映参照点与此帧全部运动目标参照点间隔长度。根据上述抽取图像设置的间隔,重新调试阈值 1,在 n 个间隔长度里选出的目标框应比 1小且与 Si之间保持最小距离。将该目标框用表示。假设不能找出目标框 M,那么需要将目标框 Z 不断往前投映,若是经过若干次投映仍无法获得目标框 M,则判定为关联提取结束或失败。依据 FasterR-CNN 识别层得出的高度 J 与宽度 U 目标框形状信息,计算投映目标框 Z和间隔长度目标框 M 的变换信息J 和U,可表示为:J=Ji-J,U=Ui-U (4)重 新 设 置 阈 值 2,若 不 符 合22JU ,需要直接将目标物 Z 和其中所涵盖的坐标 X
15、,Y,J,U,重复向该帧图像的上一帧图像进行投映处理,如果投射 3 次后,若2无法满足22JU ,则说明未完成目标轨迹提取。如果 2满足22JU ,则说明完成目标轨迹提取,并记录目标轨迹的目标框坐标,向当前帧图像的前帧图像中投射记录的目标框坐标,重复上述过程。在相关联时,它只执行二次方计算,因此该方法的计算速度较快。设定阈值 1是为了避免在目标关联时发生差错,因为在识别目标时,可能会有一些帧图像上的目标动作不能被识别,或因为没有足够的分类特征和较低的概率而被剔除的问题,造成在与目标框关联的时候,选择一个错误的目标框进行关联,而设置阈值 1这个问题可以得到很好的处理。这个阈值的大小取决于图像的像
16、素、所抽取的图像时间间隔与运动速率,实验中可依据视频质量、场景等进行了相应的调整。由于目标物体重叠、遮挡、相机角度等因素,使目标框的准确率降低,通过设定阈值 2可以解决上述问题。设置阈值 2,可以去除一些有一定偏差的物体,也就是把与舞蹈基础训练动作真实轨道相偏离的参照点去掉,从而提高舞蹈基础训练动作轨迹提取的精度。1.1.4 舞蹈基础训练动作轨迹拟合进行舞蹈基础训练动作关联后,就需将关联动作拟合提取出运动轨迹。实现动作轨迹提取的前提条件是:图像宽度、高度小于等于 X+W 和J+U。将全部记录点投映至第一幅图像中,忽略参照点的出现顺序,图像坐标的横轴和纵轴分别是图像高度以宽度,在该图像坐标系中通过最小二乘法对投影点进行拟合操作,获取拟合曲线,该曲线则是最终的目标运动轨迹。1.2 舞蹈基础训练动作跟踪算法提取舞蹈基础训练动作轨迹后,本文利用傅里叶变换用于实现对上述舞蹈基础动作轨迹准确跟踪,将卷积计算变换成点乘计算,这样不仅可以提升跟踪的准确性,同时可以减少卷积耗时。以卷积后的响应值看作是一种以相似度为参照的衡量方法,用 x 以及 h 分别描述舞蹈基础训练动作轨迹以及滤波器,二者的傅里叶变换