1、第 卷第期湖北工业大学学报 年 月 收稿日期 第一作者周祺(),湖北武汉人,湖北工业大学教授,研究方向为产品创新设计 通信作者张帅(),河北唐山人,湖北工业大学硕士研究生,研究方向为体感交互设计 文章编号 ()基于手部姿态识别的 体感交互系统设计周祺,张帅(湖北工业大学 工业设计学院,湖北 武汉 )摘要为摆脱 音乐设备在交互方式上的限制,同时针对目前体感交互系统便携性差、价格昂贵等问题,将边缘计算设备与轻量级网络结合,提出了一种基于手部姿态识别的音乐体感交互系统。系统上位机依托于树莓派,通过单目摄像头获取数据进而识别手部关键点,调用舵机追踪目标,并通过 通信模块将动作指令发送给下位机,从而实现
2、中远距离控制音乐演奏。通过在轻量级网络 中嵌入 通道注意力机制并进行网络瘦身操作,系统可在 内完成体感控制任务,能满足用户手势控制、设备协同等需求。关键词 ;树莓派;手势识别;体感交互 中图分类号 文献标识码人机交互领域如今把交互行为的相关问题作为评价设计资源、情感性、体验感受和美学的重要指标。交互系统设计的灵感也越来越多地来自于以身体设计和空间设计为基础的体感动作,在姿态识别、手势识别等技术应用中尤其明显。但相关系统在 音乐控制这类日常活动中并未得到广泛应用,且多数应用需要特定的辅助设备,如动捕手套、深度摄像头等。随着深度神经网络在计算机视觉领域研究的深入,平面图像的特征提取和手势识别的能力
3、越来越强,使用廉价易用限制更少的单目摄像头搭建体感交互系统逐渐成为可能。等就提出了一种基于卷积神经网络()和 循环网络组合,采用两阶段培训策略的手部关键点识别方法。虽然处理关键点识别的模型发展很快,也越来越准确,但也可以看到多数模型需要大量的计算和内存资源,无法快速部署在树莓派等边缘计算设备上,无法满足体感交互应用的便携性需求,限制了在小型设备上的应用。对嵌入式设备的需求刺激了高效网络结构的发展,近年来出 现 了一系列 轻量 化卷 积网络 模 型。通过引入初始空间模块,以更低的计算成本更好地提取特征。中,等人使用深度可分离卷积策略,将标准卷积分解为深度卷积和点态卷积,有效地减少了计算负荷。其中
4、,使用分组卷积模式,引入通道分割和通道混洗操作,在较小模型规模的同时仍具有较强的泛化性,可以用比传统网络更少的参数保持相似的精度。因此,本文根据改进的 手部关键点回归模型,搭建了一个用于控制 音乐设备的体感交互系统。系统以树莓派 为搭载平台,加入二自由度舵机、无线通信等模块,实现了交互识别、动态跟踪、远程控制等功能,让 设备控制更加直观自然、方便高效,使得体感交互系统易便携、低功耗、反应迅速。基于改进 实现轻量化手势识别算法手部关键点检测,也称为手部姿态识别,旨在定位手部关键区域,包括指尖、指关节等部位。为了在低成本的小型设备上完成体感交互的 设备控制,以手部关键点检测为目标,从两个研究方向对
5、模型进行改进:第一个方向是优化模型结构,强调图像中最重要的特征信息;另一个方向倾向于压缩模型,旨在以合理的精度损失减小模型。因此,本文以 为基础,增加 通道注意力机制从而提高精度,引入网络瘦身来降低计算消耗,搭建了一种轻量高效的手部姿态识别模型。轻量级网络 是旷世在 年提出的一种轻量级卷积神经网络,其设计遵循四个基本原则:)为了最小化内存访问成本,输入通道的数量和输出通道的数量应该尽可能相等;)为了降低内存访问成本,组卷积要尽可能小;)为了提高网络并行度,网络结构要尽可能简单;)为了减少运算消耗,激活等运算的次数要尽可能少。为遵循其设计原则,网络采取了分组卷积的方式,在保证精度的情况下减少网络
6、参数量。网络主要由两个类型单元构成:类型单元(图)和类型单元(图),分别对应运算中步长为和的两种情况。图 网络单元结构类型单元为下采样单元,两个分支分别进行步长为的深度 卷积(,)和单元卷积操作。在卷积之后,两个分支通过级联操作()进行通道拼接合并,特征图维度大小减半,输出通道数加倍,最后进行 通 道 混 洗 操 作()进 行 特 征融合。类型单元首先将输入特征通道平均拆分为两个分支 和,即进行通道分割操作()。为减少碎片化程度,在左分支 保持结构不变直接同等映射,右边分支 则按顺序进行单元卷积、深度卷积和单元卷积操作。通过级联操作拼接合并后,单元通道数保持不变,最后也需进行通道混洗操作。经过
7、通道分割操作后,每次卷积计算都是在部分特征通道上进行的,计算量和参数相应减少,网络单元可以容纳更多的特征通道,提高了网络的准确率。两个单元后的通道混洗就是在不同的组之后交换一些通道,从而交换信息,解决了分组卷积导致的信息丢失问题,使得各个组的信息更丰富,有利于提取到更多更好的特征(图)。通道混洗操作过程为:将输入层分为组,总通道数为,首先将通道维度重塑为(,),然后将这输出特征转置变成(,),最后重塑为 进行输出。图通道混洗操作 通道注意机制 ()通道注意机制是由 等在 年提出的,其核心思想在于通过学习特征通道的权重,使得有效的特征权重增大,无效或效果小的特征权重减小,能够达到更好的结果同时仅
8、增加了可接受的少量计算代价。单元结构(图)主要有两部分,分别称为挤压()和激励()。图 单元结构对于卷积操作 :,R ,R,设,表示卷积核集,其中表示第个卷积核的参数;输出特征图有个通道,即,输入特征图有 个通道,即,其中可表示为:其中“”意为卷积操作。可通过 单元如下操作来校准特征:原始特征图首先进行挤压操作,通过全局池化()压缩到,将每个二维的特征通道变成一个特征标识符,在这种情况下部分仍具有原始 感应野,并且将跨空间维度 的特征映射聚合了起来。全局池化操作生成的通道向量 R是由的空间维度通过收 缩 生 成,其 中的 第个 元 素 计 算 方 法 见湖北工业大学学报 年第期式()。()(,
9、)()接下来进行激励操作,充分捕获通道依赖性,学习每个通道样本的特定激活,控制通道激活。激励层将挤压结果交由两个全连接层()预测,对特征映射进行重新加权,通过 函数的门机制把权值归一化,公式如下:(,)(,)()()式中,为 函数,R和R表示两个全连接层生成的权重值,通过在非线性周围形成一个具有两个全连接层的瓶颈来参数化门控机制:中进行维度缩减,将的维度从缩减为,缩减后进入 激活,之后在中将维度再增扩回。单元最终输入通过对参数的重新缩放转换获得,表示如下:?(,)其中?,?,?和 (,)指的是特征图中的与激励操作产生的之间的通道相乘。轻量级关键点识别网络手部关键点检测就是定位手部的关键点坐标序
10、列,其中手部定位点序列(图)包括指尖,各节指骨连接处等 处关键点。以手部 处关键点序列为依据,由 数据集和网络抓取的共 张图片制作了训练图集。图手部 点序列训练中,为更好地模拟实际应用中的情况,在,度之间随机旋转训练图像,将随机平移应用于边界框 内进行了中心扰动并进行了随机翻转。将大小为 的图像及关键点坐标输入调参后的 网络模型后,直接返回手部 个关键点坐标,调参后的网络结构见表。为了在保证模型准确性的同时降低模型复杂度,提高泛化能力,在 网络类型单元右侧的最后一个单元卷积层之后添加 层,更改后的模块结构见图。网络结构加入的 单元,对提取的深度特征图进行重新校准,能够添加更丰富和更高级别的信息
11、源,从而更好地引导模型的深度学习过程。表 关键点回归模型结构阶段输入层输出副本数 步幅 图通道注意力机制 网络单元结构模型剪枝与重构虽然使用 构建的模型比较精巧,但仍然考虑进一步压缩模型以实现更快的推理速度,因此有必要对模型进行剪枝操作(图)。剪枝是一种常见的模型压缩方法,使用剪枝去除不重要的通道,可以减少神经网络的计算和内存需求。图剪枝操作示意图本文选用的网络瘦身操作是一种通道级剪枝方案,其基本思想是联合训练权重和引入的比例因子衡量每个通道的重要性。网络瘦身根据 ()层中的比例因子来衡量通道的重要性,可以指导模型在训练过程中将不重要的通道剪除,即较小时对应的通道。具体的网络瘦身流程为:首先在
12、原始模型的 层中加入比例因子,将模型训练后通过系数的 正则化约第 卷第期周祺,等基于手部姿态识别的 体感交互系统设计束项来诱导 层稀疏。然后通过比例因子的权重衡量通道的权重,找到可以丢弃的通道。最终训练修剪后的模型并将准确性恢复,构建更小的模型来移植参数。网络瘦身方法的目标函数定义为:(,)(,),)()()公式()为调整后的模型损失函数,(,)为训练输入和 目 标,为 网 络 中 的 可 训 练 参 数,即(,)(,),)为原始模型的训练损失函数,后半部分为用于约束的比例因子,()是比例因子上的惩罚项,是两者的平衡因子,()使用 正则化,即()。的正则化使得 层的比例因子趋近于零,能够识别不
13、重要的通道,有助于后续的通道剪枝,甚至可能提了泛化精度。训练时,根据 的结构特点,仅针对步长为的 单元右分支进行网络瘦身操作,修剪了 的通道。重构的小网络经过微调步骤移植模型参数,最终模型大小从原始模型的降至,用于衡量模型复杂度的浮点运算次数(,)从 降至 ,参数量减少。当手部关键点训练集在经过修剪后的关键点检测模型上将实现较好的识别准确度,即经损失函数计算所得准确率大于 后,将其部署至树莓派设备上。体感交互系统设计用于 设备控制的体感交互系统由树莓派、摄像头、二自由度云台、红外传感模块、通信模块和针 插座组成。系统分为两个部分,以树莓派 作为数据处理端,作为数据接收端。树莓派作为上位机,通过
14、摄像头获取的图像计算分析关键点位置,控制二自由度云台追踪手部,并将手部姿态信息通过通信模块传递给下位机 ,从而实现对 设备的体感控制,模块框图见图。图体感交互系统模块框图舵机追踪模块为了让用户在交互时手掌处于摄像头中心位置,使用二自由度云台对手部中点进行追踪。为实现舵机角度的平滑调整,采取了 控制,即比例()微分()积分()控制修正系统偏差。追踪控制以离散形式实现,需要采用后向欧拉方法对 控制 器 方 程 进 行 数 值 积分,计算公式为:()()()()()其中、和分别是比例系数、积分系数和微分系数。根据手部识别模型返回手部 个关键点的坐标集,可得手部中心坐标为(,),图像中心点坐标为(,)
15、,则第张图片图像中心点与手部中心点纵向和横向偏差分别为:,横向舵机方位角有效范围为 ,纵向舵机方位角有效范围为 ,因此追踪模块中最终所用的舵机移动角度计算公式为:(),()舵机的控制部分需要使用(脉冲宽度调制技术),利用占空比来控制脉冲信号的输出大小,靠脉冲信号的持续时间来定位舵机输出轴的旋转角度。系统选用舵机的 频率为 ,转动范围为 ,对应的 周期为 ,其脉冲长度、占空比和转动角度之间的对应关系如图所示。图脉冲长度与转动角度对应关系为防止舵机追踪抖动造成镜头不稳,模块中设置一个 的死区,并使用多线程进行横滚轴和俯仰轴的 角度修正运算,从而达到及时稳定的手部跟随效果。系统检测到交互区域内有红外
16、信号时初始化舵机和摄像头,舵机转至初始位置;在时限湖北工业大学学报 年第期内监测区域未识别到目标手势信息时,舵机回归初始位置并在待机时间结束后释放相关端口以节约算力,控制流程见图。图舵机控制流程无线通信与控制模块上位机通过 单片射频收发芯片将识别到的动作信息传递给同样配备 通信模块的 下 位 机,实 现 中 远 距 离 的 无 线 通 信。对 通信模块的地址、通信频道等在收发端进行配置,实现多机的数据传输,可以组建星状控制网络,方便用户同时控制多个 设备。控制端主要完成以下流程(图):)接受手部姿态信号;)识别姿态编号并转换为 消息;)通过针 插座输出信号控制 设备。图 控制端工作流程针 接线传递的 控制消息由十六进制符号表示,由控制器号和数据字节共同组成。控制器号大于 ,间于 到 (十六进制);数据字节小于 ,间于 到 (十六进制),控制端组合发送给 设备后可实现音量更改或音高变化等功能。实验测试与结果分析进行系统测试时,数据处理端树莓派 运行姿态识别模型及传达指令,摄像头 实时采集用户图像信息。作为开发环境运行手势识别模型文件,在识别出手部关键坐标后,通过计算其二维角度关系识别手势