基于车载毫米波雷达动态手势识别网络_董连飞.pdf-资源下载-蜗牛文库-知识共享服务平台

基于车载毫米波雷达动态手势识别网络_董连飞.pdf

1、基于车载毫米波雷达动态手势识别网络董连飞，马志雄，朱西产（同济大学汽车学院智能汽车研究所,上海201804）摘要：基于 Transformer 提出一种车载毫米波雷达手势识别方法，可用于车内人员进行人机交互.毫米波雷达信号不受车内光照变化影响，同时能够保证乘客隐私.首先，毫米波雷达采样信号经过二维傅里叶变换和滤波获得距离多普勒（RDM）和距离角度图(RAM)；然后，将连续多帧 RDM 和 RAM 经过三维卷积网络后进行特征融合与拼接得到特征向量，利用 Transformer 模块进行位置和序列编码；最后通过全连接层获得手势概率分布向量.采集了基于实际路况和多种干扰环境下的雷达数据制作了手

2、势识别分类的数据集，实验结果表明该方法可以有效的检测与识别多种典型手势，识别准确率可以达到 97.14%以上.关键词：动态手势识别；三维卷积神经网络；毫米波雷达中图分类号：TN95 文献标志码：A 文章编号：1001-0645(2023)05-0493-06DOI：10.15918/j.tbit1001-0645.2022.102Dynamic Gesture Recognition Network Based on VehicularMillimeter Wave RadarDONG Lianfei，MA Zhixiong，ZHU Xichan（Intelligent Vehicle Res

3、earch Institute,School of Automotive Studies,Tongji University,Shanghai 201804,China）Abstract：A Transformer based millimeter wave radar gesture recognition method was proposed for human-com-puter interaction of vehicle occupants.The millimeter wave radar signal was designed to be not affected by the

4、change of light inside the vehicle,and at the same time to ensure the privacy of passengers.Firstly,the milli-meter wave radar sampled signal was carried through two-dimensional Fourier transform and filtering to obtaindistance-Doppler(RDM)and distance-angle maps(RAM).Then,consecutive multi-frame RD

5、M and RAM werefused and stitched after three-dimensional convolutional networks to obtain feature vectors.And a Transformermodule was used to perform position and sequence encoding.Finally,the gesture probability distribution vectorwas obtained through the fully connected layer.A data set for gestur

6、e recognition classification was collectedbased on the actual road conditions and radar data under a variety of interference environments.The experiment-al results show that the method can effectively detect and recognize a variety of typical hand gestures,and the re-cognition accuracy can reach mor

7、e than 97.14%.Key words：dynamic gesture recognition；three-dimension convolutional neural network；millimeter wave radar 车载软件和车载智慧屏等智能座舱部件的快速发展和应用，一方面给驾车出行增加了更多智能化和趣味化体验，另一方面也增加了人机交互的频率容易造成驾驶员分心.手势识别作为一种有效的人机交互方式也是目前研究的热点.通过手势动作这种非接触式交互可以快速实现音乐切换、空调开关等简单功能，同时不会分散司机过多注意力，有助于提高出行安全降低事故概率1.随着深度学习的广泛应用，基于

8、计算机视觉的手势识别研究取得巨大进展2.循环神经网络3和长短期记忆网络4被应用于手势识别任务，这些网络架构可以对动态手势的时间和序列特征进行建模.收稿日期：2022 04 28基金项目：国家重点研发计划项目（2021YFB2501201）作者简介：董连飞（1984），男，博士生，E-mail：.通信作者：马志雄（1978），男，讲师，E-mail：.第 43 卷第 5 期北京理工大学学报Vol.43No.52023 年 5 月Transactions of Beijing Institute of TechnologyMay 2023DHINGRA 等在三维卷积神经网络(3DCN

9、N)模型中应用了注意机制，学习了不同尺度的特征，获得了良好的分类结果5然而，这些方法对光照变化条件比较敏感，不能在低能见度条件下工作，无法满足车载应用的需求.王粉花等6提出基于 YOLO 算法的手势识别方法提升了在肤色和光线明暗不一的背景下检测精度和速度.强彦等7提出了小波变换和双边滤波的图像去噪声方法，来应对光照变化、车载环境和摄像头成像质量的影响.针对复杂动态背景下手势分割提取效果差、图像识别率低等问题，强彦团队8研究了多特征融合的快速手势识别方法，进一步提升手势识别的准确率.毫米波雷达可以通过发射电磁波并接收手势运动的回波来进行识别，因此可以不受光照影响，这是与图像手势识别相比的巨大优势

10、.同时毫米波雷达不需要采集车内图像信息，可以保护车内人员的隐私.因此，基于毫米波雷达的动态手势分类越来越受到人们的关注9.KIM 等10利用 24GHz 雷达并训练卷积神经网络对三种手势的频谱特征进行识别实现预测分类.ZHANG 等11提出了一种毫米波雷达手势识别系统，采用 3DCNN 结合 LSTM 进行端到端训练，实现不同的动态手势识别.最近，Transformer 网络在自然语言处理、计算机视觉等任务都取得较大的成功.ANDREA 等12通过引入 Transformer 自我注意力机制，对视频手势进行序列建模，并在手势识别数据集上取得较好的效果.文中针对车内复杂的光照和动态干扰场景，提出

11、用于毫米波雷达信息的手势识别方法，数据处理流程图如图 1 所示.首先，设计典型的手势进行车内环境的数据采集获得雷达原始信号；然后，对雷达信号进行预处理和噪声滤波获得距离多普勒特征图和距离角度特征图，并制作特征分类数据集；接着，利用深度学习方法提取各种手势动作特征并提出基于 Transformer 的动态手势分类网络.最后，在数据集训练获得最优的手势分类网络模型并进行结果分析.数据滤波距离FFT多普勒FFTRDMs通道FFTRAMs中频信号原始数据采集数字信号处理动态手势识别分类结果预测分类网络数据采样混频发射天线接收天线电磁波特征数据集X1X2Xn1Xn111222n1p1npsW11WspY

12、1Y1Ys图 1 动态手势识别算法数据处理流程图Fig.1 Data processing flow chart of dynamic gesture recognition algorithm 1 动态手势识别网络模型文中提出的动态手势识别网络如图 2 所示，主要由网络输入，特征提取，时间序列编码和分类预测4 部分组成.网络输入特征提取时间序列时间序列距离-角度图RAMN 距离-多普勒图RDM特征融合模块特征图输入最大池化层特征图拼接线性层输出3DCNN13DCNN2时间序列分析Transformer编码器层归一化前馈网络层归一化多头注意力位置编码手势分类结果向左向右接近远离手势概率预测全链

13、接向上向下IhwmIhwmV KQ图 2 动态手势识别网络框架图Fig.2 Framework diagram of dynamic gesture recognition network494北京理工大学学报第 43 卷 1.1 数据输入整个手势识别的框架可以定义为一个函数关系：:R2mwhc Rn（1）R2mwhcRn式中：表示整个网络特征提取和编码过程.表示每次到网络的输入帧；2 为每次输入为 RAM 和RDM 两种模态数据；m 为特征图的数量（文中取 m=8）；w 和 h 分别为特征图的宽度和高度，这里对于 RAM图大小为 9696，RDM 特征图大小为 2424；c 为

14、通道数，一般图像具有 3 个通道表示 3 种不同颜色，这里数值含义为雷达回波强度值，所以只有单通道即c=1.对于，n 为手势的类别，这里 n=6.由连续 m 张特征图组成了实际输入网络的 1 帧记为 I，整个输入可以组成数据集 S.1.2 特征提取特征提取层主要经过两个 3DCNN 主干网络进行空间特征提取，如图 3 所示.卷积层可以表示为Conv3D(in,out,k,s)，各个参数含义依次为输入通道数，输出通道数，卷积核大小和步长且每个卷积层后面一次包含批归一化层和 ReLU 激活函数层；最大池化层可以表示为 Maxpooling(p,q)，p 为为池化核大小，q 为步长，其中池化层并不在

15、时间维度进行.IRAM序列经过 3DCNN1 得到（32,8,12,12）的特征图记为 RAF，IRDM序列经过 3DCNN2 得到（32,8,6,6）的特征图记为RDF.在特征融合模块，两个特征张量首先经过最大池化后得到均为（32,8）的二维张量 RAF1和 RDF1，将两个张量进行拼接得到 F1，然后经过线性层得到（8,64）的二维张量作为 Transformer 层的输入记为 SF.整个过程记为RAF1=MaxPooling(RAF)RDF1=MaxPooling(RDF)F1=concat(RAF1,RDF1)SF=Linear(F1)（2）其中在 Linear()为输入输出均为 64

16、的线性层.1.3 时间序列分析此过程原始的 Transformer 编码器用来进行时序特征提取如图 4 所示.由于不同帧之间有着严格的顺序关系，在进行 3D 卷积时并没有破坏前后的时序特征关系，因此需要对输入序列特征的位置进行编码.Transformer编码器层归一化线性层线性层线性层线性层线性层线性层多头特征联结归一化点乘注意力ReLU前馈网络层归一化多头注意力特征向量输入位置编码VKQV01 7KhQ图 4 Transformer 编码模块Fig.4 Transformer encoding module 在 Transformer 编码前使用位置编码PE(O,2i)=sin(O/1 0002i/dm)PE(O,2i+1)=cos(O/1 0002i/dm)（3）式中：PE 表示位置编码，通过不同频率的正余弦函数生成.O 为所处的位置，i 为相应的维度，dm为每一帧特征图经过 3D 卷积后特征向量的长度，即 64.后面处理过程沿用了经典的 Transformer 编码过程13，主要包含多头注意力层和前馈网络层，这里不再赘述.最终得到的编码向量经过一个两层全连接进行手势类别预测，并

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？