1、第 44 卷第 3 期2023 年 3 月激光杂志LASE JOUNALVol.44,No.3March,2023http /www laserjournal cn收稿日期:20220902基金项目:国家自然科学基金青年项目(No 61901408)、扬州大学科创基金(No X20220378)作者简介:吴文(1996),女,硕士,主要研究方向:图像处理。Email:wuwenyzu 163 com通讯作者:李春晓(1982),女,博士,副教授,硕士生导师,主要研究方向:车联网,图像处理。Email:licx yzu edu cn基于深度数据的手势识别方法研究吴文,李春晓,金宏晖,杨梅,王清悦
2、扬州大学信息工程学院,江苏 扬州225127摘要:针对当前传统手势识别技术受环境和手部自身条件干扰较大,如当手腕处存在大袖口或其他干扰物的情况下,难以准确识别手势的问题,提出一种基于深度数据的手势识别方法。首先,通过预处理提取手形;其次,利用提出的 NIterate、CLoop 判定等方法识别手掌最大内切圆;然后,计算手形所有轮廓点到掌心距离的直方图及其波峰索引,并结合角度提取指尖个数;将得到的 3 类特征作为改进 SVM 的输入,映射到高维空间,进行手势 05 的识别。实验结果表明,该方法在复杂背景和手部自干扰等影响下具有较高的识别准确率和实时性,平均准确率提高至 98.57%,识别耗时降低
3、至 37.923 ms,较大程度提高了识别效率。关键词:手势识别;深度数据;最大内切圆;直方图;指尖个数;SVM中图分类号:TN249文献标识码:Adoi:10.14016/j cnki jgzz.2023.03.111esearch on gesture recognition method based on depth dataWU Wen,LI Chunxiao,JIN Honghui,YANG Mei,WANG QingyueCollege of Information Engineering,Yangzhou University,Yangzhou 225127,ChinaAbstr
4、act:Aiming at the problem that the current traditional gesture recognition technology is greatly affected bythe the environment and its own hand conditions,it is difficult to extract accurate gesture features when there are cuffsor other interference objects at the wrist An improved gesture method b
5、ased based on the depth data is proposedFirstly,the hand shape is extracted by preprocessing Secondly,the largest inscribed circle of the palm is identified bythe proposed NIterate,CLoop judgment method Then,the histogram of the distance from all the contour points ofthe hand shape to the palm and i
6、ts peak index are calculated,and the number of fingertips combined withthe angle be-tween the fingertip and the adjacent point is extracted Finally,the obtained 4 types of gesture features are used as theinput of the improved SVM,mapped to the highdimensional space,and the gestures 05 are recognized
7、 The experi-mental results show that the method can achieve high recognition accuracy,realtime performance under complexbackground and multiple influences,which include interference,the average accuracy has increased to 98.57%,andthe timeconsuming has decreased to 37.923 ms,which greatly improves th
8、e efficiency of recognitionKey words:gesture recognition;depth data;the maximum inscribed circle;histogram;the number of fingertips;SVM1引言手势是日常生活交流中重要的一部分,可被赋予特定含义,具有表现力强和灵活性度高的特点12,手势可以简化语言信息、传递有效消息,减少语言沟通障碍,提高指示传输效率。目前,手势识别在人机交互方面已成为一项重要研究技术,并广泛运用于各种http /www laserjournal cn场景,其中包括车载智慧功能3、手语翻译4、交通
9、指示5 等,只有对手势种类、信息识别、实时性进行高要求,才可做到相对顺利、稳定地实现人机合作与人机共融的任务67。手势识别可分为检测、分割、提取特征、分类四个步骤8,常用的方法主要有两种,一是使用物理接触式设备,如定制的数据手套可直接得到手势特征89,但只能识别基于动作顺序的控制10,同时设备制作困难、价格昂贵,难以普及;二是使用基于视觉的手势识别方法,如利用传统分割方法、计算机视觉、物联网感知等新兴技术和 3D 视觉传感器等新型设备实现人机互动11,其中,以 Kinect 为代表的深度摄像头使得手势识别技术获得了较快发展12。围绕基于视觉的方法,已有不少研究,如龚茜茹等13 利用体感控制传感
10、器和 Kinect 获取指尖位置、轮廓局部曲率等参数,并通过 SVM 识别,可提高手势稳健性;舒子超等14 使用 3D 视觉图像,分析手势轮廓、凸包面积比等关键手势特征,可实现对数字手势的识别,但在数据集较大、环境更复杂的情况下,准确率会大幅度下降;魏秋月等15 选取人体骨骼点、手部关键节点、手部运动轨迹等,通过增加全局限制条件和阈值改进 DTW,提高动、静态手势识别准确率,但在增加手势复杂度和自干扰时,其鲁棒性和实时性随之降低;隋修武等16 建立非负矩阵分解与 SVM 的联合模型,按照行表示肌肉类型提取特征值,可有效提高识别率,但在图像预处理部分不够精准;孙进等17 使用双通道空洞卷积神经网
11、络,融合图像和边缘特征,增强泛化能力,操作复杂,需要大量有效数据集;Panqu Wang 等18 融合全卷积网络和卷积长短期记忆,实现视频语义分割,效率难以得到提高;纪盟盟等19 为解决图像缺失问题,提出 CNN 和 BiLSTM 融合方法提取关联特征,但缺乏对几何变形敏感度。以上基于视觉的手势识别方法均在理想情况下进行的,然而,人在完成手势动作时,手通常处于自然前倾的状态,并非与水平面保持严格垂直,易出现多种干扰因素,考虑到手势环境和手部的自身干扰,尤其是手腕处可能存在大袖口或其他干扰物等,使用传统的识别方法会错误定位手部。因此,针对上述问题,提出一种改进的基于深度数据的手势识别方法,通过对
12、图像的预处理和特征提取,将最大掌、掌心、手指个数 3 类关键特征作为改进支持向量机(SVM)的输出,并映射到高维空间进行分类。该方法可在手部存在自干扰的情况下,提高识别准确率,具有较好的实时性。2预处理2.1粗分割通过深度相机获取深度图像数据,为高效分割手部,减少杂质点的影响,采用二值化和 Ostu 阈值分割法进行粗分割,将深度数据转为灰度值,转换公式如式(1)所示,二值化公式如式(2)所示。gray=255currentDistnearDistfarDistnearDist(1)其中,currentDist 为当前像素点的深度值,nearDist 为Kinect 的最小工作距离,farDis
13、t 为最大工作距离,grayDist 为转换后的灰度值。h(i,j)=dep(i,j),dep(i,j)D+T0,otherwise(2)其中,h(i,j)表示二值化后像素点的灰度值,dep(i,j)表示该点原始灰度值,D 表示该像素点的深度值,T 为一个经验修正参数,令 T=10。图像有 0 255 个灰度级,Ostu 阈值分割将其分为前景部分 0i 和后景部分 i255,设 0i 占比 0,平均灰度值 u0,i255 占比 1,平均灰度值 u1,可得图像总灰度均值 u 和类间方差 g,如公式(3)(4)所示,当g 取最大值时,对应 i 为最佳阈值。u=w0*u0+w1*u1(3)g=wo(
14、u0u)2+w1(u1u)2=w0w1(u0u1)2(4)2.2抽样降维处理由于外轮廓点属于边界清晰、变化连续的点,且预分割图像是灰度图像,因此,为降低计算复杂度,在轮廓点集合中,每隔 5 个点提取一点作为新的轮廓点的集合,通过抽样降维处理,可减少计算量、提高运算效率和实时性。3手势特征提取为有效提高手势识别的准确性和实时性,降低复杂背景和手腕处干扰等影响,选取最大掌、掌心、手指个数等关键手势特征作为参考点。3.1提取最大的掌由于手指相对手掌较为纤细,手指内部的最大内切圆半径远小于手掌内部点的最大内切圆半径,因211吴文,等:基于深度数据的手势识别方法研究http /www laserjour
15、nal cn此,识别最大内切圆可快速提取最大掌。然而,识别最大掌的传统方法要求手势严格与水平面垂直,且手腕处无任何干扰物,否则将会错误定位,如图 1 所示。因此,提出一种结合 NIterate 和 CLoop 的提取最大掌的方法。具体实现步骤及方法如下所述。图 1传统方法下识别出的最大的掌3.1.1NIterate 判定法为有效解决手势存在自干扰情况下错误定位的问题,创建图像内最大内切圆矩阵 L=C1,C2,C3,Cn,其中 Cn为轮廓最大内切圆 Cn,在矩阵 L 中迭代,取轮廓最大内切圆,具体步骤如下所示:(1)遍历矩阵 L,计算最大半径值 max_r 和圆心点坐标 max_p,确定 L 中
16、最大内切圆 Cmax位置,并将max_r 和 max_p 存入圆心和半径的集合 S=r,p 中;(2)将 Cmax内的像素值置 0(黑色),避免当前最大内切圆的影响,确保下一个最大内切圆不在袖口处,并令当前矩阵为 L;(3)遍历矩阵 L,计算最大半径值 temp_max_r和圆心像素点坐标 temp_max_p,确定当前最大内切圆Cmax位置;(4)若迭代后的最大内切圆半径大于第一次最大内切圆半径的 K 倍(K 为经验修正参数),则将当前得到的半径和圆心存入集合 S 中,公式如式(5)所示:temp_max_rKmax_r(5)(5)根据集合 S 中半径和圆心个数确定可能存在的最大内切圆个数,并存入集合 vector_circle 中。3.1.2CLoop 判定法由于手势动作时,手呈自然前倾状态,CLoop 判定法根据最大内切圆的平均灰度值判定有效最大内切圆,同时 vector_circle 只存在两种取值情况,即 1 个或 2 个轮廓最大内切圆,具体判定情况如下所示:(1)若 vector_circle=1,则当前 L 内半径和圆心就是手掌区域最大内切圆的半径和掌心;(2)若 vec