1、文章编号:1009-6094(2023)06-1970-08面向空中交通管制员疲劳识别的哈欠检测王 超,徐楚昕,王志锋(中国民航大学空中交通管理学院,天津 300300)摘 要:空中交通管制员在指挥飞机时存在频繁嘴部开合活动。为从管制员的嘴部陆空通话行为中准确区分哈欠行为,降低管制员疲劳工作产生的安全风险,提出了一种基于视频的结合卷积神经网络(Convolutional Neural Network,CNN)与长短期记忆网络(Long and Short Term Memory Networks,LSTM)的管制员嘴部行为识别方法。首先,搭建面部定位模型提取人脸 68 特征点,建立嘴部几何区域
2、提取模型划分嘴部区域;其次,建立管制员哈欠检测模型分别提取嘴部视频序列帧的空间特征与时间特征;最后,采集数据集管制员嘴部活动数据集(Civil Aviation University of China-Controller,CAUCCON)用于模型训练,通过哈欠分类模型得出序列帧内管制员嘴部哈欠识别结果。结果表明:基于视频的加入时间信息的哈欠检测方法更适合管制员的工作条件,较传统哈欠识别方法的平均识别准确率最高提升了 14.4%。关键词:安全社会工程;空中交通管制员;疲劳识别;面部特征;哈欠检测中图分类号:X949 文献标志码:ADOI:10.13637/j.issn.1009-6094.20
3、21.2353收稿日期:20211224作者简介:王超,教授,博士,从事空中交通系统仿真与分析、人工智能在空中交通安全管理的应用等研究,。0 引 言空中交通管制员负责指挥飞机的空中运行,是保障空中交通有序安全运行的关键。为确保安全,管制员需要进行 24 h 轮班工作1。管制轮班制度打破了人体正常的昼夜节律,80%的管制员在执行管制任务时会感到疲劳。据美国航空安全报告系统的统计数据显示,由管制员疲劳引起的航空安全事故高达 21%,管制员疲劳已成为威胁民航运行安全的重要风险源之一2。在疲劳的表现出现时,若及时告警以采取相关安全措施,能大大降低疲劳风险3。针对管制员的疲劳识别方法经过了较长时间的研究
4、4。常见方法有穿戴式检测方法,如佩戴心电5、脑电6、眼动7等检测设备,通过实时测量各项生理数值以判断疲劳指数。此类方法易对管制员工作造成干扰,在实际情况下应用效果较差。非穿戴式方法,如记录管制员的无线电语音数据,通过分解无线电通话中的疲劳语音信号以判断疲劳8,以及利用计算机视觉技术及深度学习方法9 10,通过分析摄像头采集的视频及图像信息,从面部及肢体行为表现判断管制员疲劳状态。随着计算机视觉与深度学习技术的发展,基于视频或图像的管制员面部疲劳识别方法具有极强的实际应用效果。管制员的主要工作是通过无线电通信设备向飞行员发布各种指令,嘴部活动极为复杂。当管制员在疲劳工作下出现哈欠行为时,其嘴部变
5、化与正常工作时差别不显著,因此管制员的嘴部哈欠检测方法相比驾驶员、飞行员等人员的哈欠检测存在较大差异11。以驾驶员为例,驾驶员极少出现复杂的嘴部活动,出现哈欠行为时嘴部变化是极为突出的,多数的哈欠检测方法在驾驶员应用上均能达到较好的识别效果。比如,Ji 等12提出了轮廓特征提取方法提取嘴部特征的方法,利用内轮廓高宽比判断驾驶员是否为打哈欠状态。Zhang 等13用深度 CNN 划分嘴部部位并建立了驾驶员的哈欠检测系统。Xie等14提出了利用迁移学习的方法,考虑光照等变化因素,提高了驾驶员哈欠检测的鲁棒性。Yang 等15提出了一种基于细微面部动作识别的打哈欠检测方法,建立三维深度学习网络探究面
6、部表情变化与哈欠的区别。Huang 等16提出利用 LSTM 网络探索序列帧之间的关系来区分相似的动作,进而准确识别驾驶员面部表现,是当前研究的重要方向。然而同样的哈欠检测方法应用于管制员,得出的识别准确率反而极低,目前仍未有将哈欠检测的先进方法与空中交通管制员相结合的研究,因此,进行先进的适用于管制员的哈欠识别方法研究是非常重要的。Provine 等17于 1986 年首次得出一个哈欠的平均持续时间约为 5.9 s,证实打哈欠是一个包含时间信息的持续性面部动作。因此,要检测管制员的嘴部工作行为,应加入对时间信息的分析。本文针对管制员的嘴部活动,以区分管制员嘴部的陆空通话行为与哈欠疲劳行为两种
7、状态为目标,提出一种结合时间信息与空间信息的管制员哈欠行为检测方法。利用 CNN 的空间提取能力及 LSTM 的时间提取能力,建立管制员哈欠识别模型得出管制员的哈欠行为检测结果。通过检测管制员在疲劳初期的状态变化,减少重度疲劳现象,降低因管制员疲劳带来的安全风险,具有极高的现实意义和实际应用价值。0791第 23 卷第 6 期2023 年 6 月 安全 与 环 境 学 报Journal of Safety and Environment Vol.23 No.6Jun.,20231 管制员嘴部行为分类空中交通管制员在工作时主要分为 2 种工作状态:正常工作状态和疲劳工作状态。正常状态下,管制员的
8、双眼眨动次数缓慢;嘴部大部分时间保持频繁开合的陆空通话作业。疲劳状态下,管制员眨眼频次升高;嘴部出现缓慢张大的打哈欠行为。管制员的嘴部变化是一段时间内的变化,如何准确区分管制员嘴部陆空通话行为与哈欠行为是研究管制员疲劳识别的关键技术问题。为解决上述问题,本文建立了以下 4 部分模型,如图 1 所示。图 1 管制员哈欠检测方法Fig.1 Yawn recognition method of air traffic controller第 1 部分,建立嘴部几何区域模型从视频内定位到人脸并提取管制员嘴部哈欠区域。第 2 部分,搭建哈欠空间提取模型提取视频帧数据的空间特征,将视频帧数据处理为多个大小
9、为 n 1 1 的特征向量。第 3 部分,搭建哈欠时间提取模型,将视频帧数据的时间特征与空间特征向量结合,得到待处理视频段内的时间特征。第 4 部分,经哈欠分类模型得到管制员嘴部行为识别结果。2 哈欠几何区域提取方法为去除多余信息,将已获取的视频经过视频及图像处理技术处理,得到管制员嘴部几何区域,具体处理过程如图 2 所示。2.1 管制员面部仿射变换人脸定位的方法众多,多任务级联卷积神经网络(Multi-taskConvolutionalNeuralNetworks,MTCNN)框架可以准确地完成人脸检测,提取全局人脸特征,进而获得人脸,左右眼睛,鼻子以及左右嘴角的位置坐标18。但 MTCNN
10、 模型检测到人脸区域,得到 5 个关键点位置坐标后,仍然存在人脸大小与脸部朝向角度不一致的问题。为将检测到的面部朝向调整为正脸朝向,本文建立了面部仿射变换模型进行人脸对齐。首先,统一面部图像的尺寸为224 224,利用面部 5 个关键点的坐标进行仿射变换。已知转换前的管制员面部5 点坐标为一个5 2的待转换矩阵 X,并确定转换后的面部 5 点坐标位置为 5 2 的矩阵为 Y。其次,求得面部转换矩阵M,由当前图像的5 点坐标 X 与目标坐标 Y 求得,计算过程如式(1)、(2)、(3)所示。图 2 图像预处理过程Fig.2 Image preprocessing processM=YXT(1)S
11、VD(M)=UVT(2)W=(UV)T(3)得到面部转换矩阵 M,其中 S1、S2、C1、C2分别代表矩阵 X、Y 的列向量:M=(S2/S1)WCT2-(S2/S1)WCT1(0,0,1)|(4)最后,再由式(4)计算得出转换后的坐标矩阵Y,得到仿射变换的面部新关键点坐标。2.2 哈欠几何区域提取经仿射变换得到高 宽为 224 224 的相同大小的正脸图像后,建立区域提取模型从图像中提取哈欠几何区域。Dlib 是用 C+编写的工具库,使用该方法进行人脸关键点检测能得到到面部的 68个关键点,在正脸图像的检测效果较好,具有极高的运行速度19,如图 3 所示。在得到的面部 68 点坐标中,提取到
12、眼部轮廓坐标为第 36 点至第 47 点,嘴部轮廓坐标为第 48 点至第 67 点,根据嘴部轮廓坐标建立哈欠几何识别区域提取模型,划分结果如图 4 所示。根据 68 点中的嘴部上下最高点及上下最低点52,56的上下坐标为(y3,y4),建立哈欠几何上下区域提取模型 M1;根据 68 点中的嘴部左右最高点及左右最低点48,54的左右坐标为(x3,x4),建立1791 2023 年 6 月 王 超,等:面向空中交通管制员疲劳识别的哈欠检测 Jun.,2023图 3 68 特征点分布图Fig.3 Distribution map of 68 feature points图 4 面部几何区域划分图Fi
13、g.4 Division map of facial geometric region哈欠几何左右区域提取模型 M2,如式(5)、(6)所示。M1=y3-3,y4-3(5)M2=x3-3,x4-3(6)由 M1给出的上下范围、M2给出的左右范围建立矩形区域进行哈欠几何区域的确定。3 管制员哈欠识别模型管制员嘴部的活动表现为一段时间内的变化,仅对单帧的图像进行检测无法对管制员嘴部状态进行准确的判别。CNN 具有较好的空间图像特征提取能力,LSTM 网络可以有效提取保存前序帧的信息,可用来提取此时间段内管制员嘴部的时间变化信息。将时间信息加入到管制员嘴部连续帧内,建立以多层次深度神经网络为基础的管
14、制员哈欠提取模型,包含 CNN 提取空间信息特征向量及 LSTM 提取时间信息两部分,如图 5 所示。图 5 哈欠识别模型流程Fig.5 Procedure of yawning recognition model3.1 哈欠空间特征提取模型CNN 在图像特征提取呈现了优秀的表现力,是目前提取图像特征的主流方法。视觉几何群网络(Visual Geometry Group Network16,VGG16)是 CNN的常用开源的基础架构,去掉 VGG16 网络的最后一层分类层与后两层全连接层 Fc7、Fc8,以该网络为基础建立哈欠空间特征向量提取网络用于图像特征的降维提取,网络结构如表 1 所示。
15、加载预训练的参数及权重,经哈欠空间特征向量提取网络后,二维图像数据将转换为向量数据,计算过程如图 6 所示。首先,待输入的批量视频 L 设为(l1,l2,l3,ln),ln表示一段连续的视频流,n 为视频总数。对于第 n 段视频,Ln作为哈欠空间特征向量提取网络模型的输入,经第 5 层的卷积及池化计算后,输出L=(l11,l22,l33,ltn),ltn表示大小为 7 7 512 的第 n 段视频处理后的二维数组在输出中的第t 帧图像。其次,通过全连接层把分布式特征映射到样本标记空间,经卷积运算后映射在一维空间的神经元里,得到 I=(I11,I22,I33,Itn),Itn表示由大小为 409
16、6 1 1 的连续帧转换成的一维特征向量。3.2 哈欠时间特征提取模型LSTM 网络作为循环神经网络的一种,是一种提取时间信息的网络,旨在将以前的信息连接到当前任务,学习并使用过去的信息。经哈欠空间特征模型得到包含哈欠几何区域的空间信息与时间信息的特征向量 I=(I11,I22,I33,Itn)后,为将视频从图像与时间的组合提取成向量与时间的组合,利用 LSTM网络的时间序列处理能力建立哈欠时间信息提取模2791 Vol.23 No.6 安全 与 环 境 学 报 第 23 卷第 6 期表 1 空间特征提取的网络参数Table 1 Network parameter table for spatialfeature extraction提取过程 核尺寸 通道数权重数输出尺寸输入03 224 224卷积_13641,72864 224 224卷积_236436,86464 224 224池化2064 112 112卷积_1312873,728128 112 112卷积_23128147,456128 112 112池化20128 56 56卷积_13256294,912256 56 56卷