1、汽车技术【摘要】为及时检测驾驶员的疲劳驾驶情况,提出了一种基于Dlib和变种Transformer的哈欠检测方法。首先,基于Dlib的人脸关键点模型构建驾驶员眼部和嘴部的哈欠特征矩阵,然后在视频检测领域提出一种变种Transformer模型对哈欠特征矩阵进行提取和分类,最后基于YawDD数据集进行验证,结果表明,所提出算法的哈欠检测准确率达96.8%,高于已有算法,适用于驾驶员疲劳驾驶时哈欠行为的检测。主题词:哈欠检测Dlib哈欠特征矩阵变种TransformerYawDD中图分类号:TP391.4文献标识码:ADOI:10.19620/ki.1000-3703.20220453Yawn De
2、tection Method Based on Dlib and Variant TransformerLiao Dongjie1,2(1.East China Jiaotong University,Nanchang 330013;2.Key Laboratory of Advanced Control and Optimization of JiangxiProvince,Nanchang 330013)【Abstract】In order to detect the driver s fatigue driving situation in time,this paper propose
3、d a yawn detectionmethod based on Dlib and variant Transformer.First,the yawn feature matrix of the driver s eyes and mouth wasconstructed based on the face key point model of Dlib.Then a variant Transformer model was proposed in the field of videodetection,to extract the yawn feature matrix and cla
4、ssify the results.Finally,it was verified based on the YawDD dataset.The results show that the yawn detection accuracy of the proposed algorithm is 96.8%,which is higher than the existingalgorithms,and is suitable for the detection of yawning behavior when the driver is fatigued.Key words:Yawn detec
5、tion,Dlib,Yawning features matrix,Variant Transformer,YawDD廖冬杰1,2(1.华东交通大学,南昌 330013;2.江西省先进控制与优化重点实验室,南昌 330013)基于Dlib和变种Transformer的哈欠检测方法汽车技术 Automobile Technology【引用格式】廖冬杰.基于Dlib和变种Transformer的哈欠检测方法J.汽车技术,2023(3):42-48.LIAO D J.Yawn Detection Method Based on Dlib and Variant TransformerJ.Automo
6、bile Technology,2023(3):42-48.1前言疲劳驾驶是造成交通事故的主要原因之一1,而打哈欠是驾驶员疲劳初期的主要表现形式之一2。因此,研究驾驶员疲劳初期的哈欠特征,从而进行准确检测,对保障道路交通安全具有重要意义。国内外研究人员针对哈欠检测已进行了大量的研究。马素刚等3充分关注人脸的各种特征,以驾驶员面部图片作为输入,通过卷积核进行特征提取,并利用Softmax分类器判断驾驶员是否打哈欠,但只关注了单帧图像的分类,没有充分利用多帧图像在时间维度上的关联性,可能把讲话、唱歌、大笑等张嘴行为误检测为打哈欠。Mateusz Knapik等4对热成像视频进行人脸区域检测,提出眼
7、角检测算法,实现了人脸对齐,通过检测嘴部区域的快速温度变化判断驾驶员的打哈欠行为,但未考虑大幅度张嘴呼吸以及咳嗽等特殊情况。史瑞鹏等人5提出了一种基于多任务卷积神经网络(Multi-Task Convolutional Neural Network,MTCNN)的加速优化算法,对图像中驾驶员是否存在张嘴行为进行分类,以嘴部持续张开时间作为评判驾驶员是否打哈欠的标准,但此类方法分类标准无法准确度量,无法确定嘴部持续张开时间阈值,只能根据经验给出,无法达到最优效果。王超等6提出只关注嘴部图像,利用卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆(Long
8、 Short-Term Memory,LSTM)网络对视频进行空间和时间的特征提取,从而实现哈欠检测,但是这类方法哈欠检测特征单一,未考虑眼部等特征与哈欠行为的关联,缺乏全面性。本文基于Dlib和变种Transformer7模型,针对哈欠检测特征单一的问题,同时关注左右眼部、嘴部的特征变化,构建包含直接哈欠特征和隐含哈欠特征的哈欠特征矩阵,有效避免驾驶员嘴部呼吸、咳嗽等嘴部特殊情-422023年第3期b.哈欠特征矩阵构建。根据定位关键点坐标提取眼部、嘴部直接哈欠特征,得到每帧的哈欠特征向量,在时间维度进行堆积,构建包含直接哈欠特征和隐含哈欠特征的视频哈欠特征矩阵。c.哈欠检测。在得到视频哈欠特
9、征矩阵的基础上,利用变种Transformer模型进行特征提取和视频分类,完成对视频中是否有打哈欠行为的检测。3基于Dlib的哈欠特征矩阵构建3.1Dlib人脸关键点定位Dlib人脸关键点定位使用了Vahid Kazemi等人提出的ERT级联回归算法8,该算法构建了级联的梯度提升决策树(Gradient Boosting Decision Tree,GBDT),使得预测的人脸形状即关键点不断回归到真实位置9,其基本思想是:每一个GBDT的每个叶子节点均储存着残差回归量,当输入经过某一叶子节点时,将当前输入和叶子节点储存的残差回归量相加,起到回归作用,所有残差回归量相加后,即可获得预测的人脸形状
10、。与传统算法相比,ERT算法具有较出色的准确率和检测速度,同时还能够处理数据缺失的问题8。ERT算法核心表达式为:S=(xT1,xT2,xTp)TR2p(1)S?(t+1)=S?(t)+t(I,S?(t)(2)式中,S为由 p 个关键点坐标组成的人脸真实形状;xTiR2(i=1,2,p)为面部图像I的第i个关键点的坐标;S?(t)为第t次的人脸估计形状;t(I,S?(t)为第t次计算得到的残差回归量。考虑到Dlib在人脸检测和人脸关键点检测上的出色能力,本文利用Dlib提供的人脸关键点模型10对车内驾驶员的68个人脸关键点进行检测,结果如图2所示,试验证明,Dlib人脸关键点检测算法在车内环境
11、中有着优秀的关键点定位能力。因此,利用Dlib人脸关键点模型分析驾驶员疲劳时的眼部和嘴部哈欠特征是可行的。3.2哈欠特征构建眼睛和嘴是驾驶员在打哈欠时表现最为突出的部分。本文利用Dlib人脸关键点模型得到人脸关键点,提取眼部的12个关键点坐标信息、嘴部的6个关键点坐标廖冬杰:基于Dlib和变种Transformer的哈欠检测方法况的误检;针对无法度量阈值的问题,采用深度学习的方法,利用变种Transformer模型进行隐含哈欠特征提取,并实现哈欠分类,提高算法的准确性;针对帧与帧之间缺乏联系的问题,引进多头注意力机制和序列编码,以降低检测中大笑、说话等情况的误检可能性。2基于Dlib和变种Tr
12、ansformer的哈欠检测方法原理Dlib是一个包含众多机器学习算法、图像处理和数值计算等丰富功能的开源工具箱,广泛应用于人脸识别、分类等领域。Transformer模型是一种自然语言处理模型,由编码器(Encoder)和解码器(Decoder)组成7,可以完成特征提取,同时捕获远距离的依赖关系,实现分类和生成等功能。本文旨在实现驾驶员哈欠检测,故提出基于Dlib和变种Transformer的哈欠检测方法,其原理如图1所示。本文提出的哈欠检测方法主要包含3个部分:a.人脸检测和关键点定位。通过基于集成回归树(Ensemble of Regression Trees,ERT)的Dlib算法进行
13、人脸检测以及68点关键点定位。输入视频视频帧1视频帧2Dlib检测算法人脸检测人脸关键点定位眼部哈欠特征嘴部哈欠特征单帧特征向量眼部哈欠特征嘴部哈欠特征单帧特征向量Dlib检测算法人脸检测人脸关键点定位视频特征矩阵变种Transformer模型哈欠分类图1哈欠检测原理图2车内环境人脸检测关键点-43汽车技术信息,如图3、图4所示,以眼部和嘴部张度作为直接哈欠特征,得到视频帧哈欠特征向量,再按照时间维度堆积,构建包含嘴部持续张开时间、眼睛闭合时间比例(Percentage Eyelid Closure over the Pupil over Time,PERCLOS)等隐含哈欠特征的视频哈欠特征
14、矩阵,从而进行哈欠行为检测。3.2.1眼部哈欠特征根据Soukupov等人11提出的观点,驾驶员眼部开合程度的改变可以通过眼部纵横比(Eye Aspect Ratio,EAR)的变化来表征。用pi表示图3、图4中编号为i的点,左、右眼眼部纵横比Real和Rear的计算公式为:Real=p2-p6+p3-p52p1-p4(3)Rear=p8-p12+p9-p112p7-p10(4)John Sofia Jennifer提出,为了定位角度更为宽广的朝向角,不必同时考虑2只眼睛,仅使用单眼检测即可达到出色效果12,但本文考虑到驾驶员可能存在揉眼、扭头等行为造成实际仅能检测到1只眼睛的情况,将左、右眼
15、部纵横比均作为哈欠特征。3.2.2嘴部哈欠特征鉴于人在打哈欠时,嘴部的张合程度会发生明显改变,因此类比于Soukupov提出的眼部纵横比,本文引入一种评估嘴部开合程度的新指标嘴部纵横比(Mouth Aspect Ratio,MAR)。考虑到不同驾驶员嘴部的厚度差别,根据嘴唇的相关关键点进行特征提取:RMA=p14-p18+p15-p172p13-p16(5)式中,RMA为嘴部纵横比。至此,已经根据人脸关键点模型提取出眼部和嘴部的哈欠特征,将这些特征组合在一起,形成视频帧哈欠特征向量。3.2.3特征矩阵构建基于驾驶员驾驶状态的视频采集图像,提取每个视频帧Real、Rear、RMA特征值,获得单帧
16、的哈欠特征向量Vec:Vec=RealiReariRMAi,i1,n(6)式中,Reali、Reari、RMAi分别为第i个视频帧的左、右眼眼部纵横比和嘴部纵横比;n为视频所含视频帧数量。若将特征向量按照时间维度进行堆积,得到视频特征矩阵HQ:HQ=|Real1Rear1RMA1Real2Rear2RMA2Real3Rear3RMA3RealnRearnRMAn(7)由于存在时间信息,HQ除了包含视频每帧的左、右眼部纵横比和嘴部纵横比等直接哈欠特征以外,还包含嘴部持续张开时间、短时间内是否存在嘴部张度大幅度改变、单位时间眨眼次数、PERCLOS等隐含哈欠特征,为后续分辨驾驶员是否存在哈欠行为奠定了基础。4变种Transformer模型4.1Transformer模型李小平等13通过LSTM对得到的驾驶员疲劳特征矩阵进行分类,从而判断驾驶员是否处于疲劳状态。卢喜东等人14通过深度森林方法对方向梯度直方图(Histogram of Oriented Gradient,HOG)特征矩阵进行恶意代码分类。本文选择变种Transformer模型提取H HQ的隐含哈欠特征,从而完成对视频中驾驶员是