1、 电视技术 第 46 卷第 12 期(总第 565 期)51PARTS&DESIGN器件与设计文献引用格式:李干涛,朱岸平,李火星.乘务员值乘状态监测技术研究 J.电视技术,2022,46(12):51-55.LI G T,ZHU A P,LI H X.Research on the monitoring technology of locomotive crew on-duty stateJ.Video Engineering,2022,46(12):51-55.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe.2022.12.012乘务员值乘状态监测技
2、术研究李干涛1,朱岸平1,李火星2(1.中国铁路南昌局集团有限公司机务部,江西 南昌 330000;2.郑州畅想高科股份有限公司,河南 郑州 450000)摘要:利用多维度视频融合感知技术对机车乘务员值乘状态进行实时分析,通过乘务员前方图像采集设备和后上方图像采集设备实时获取视频,先对视频图像进行动态自适应校正,再利用 mobilenet-yolov3 轻量级网络检测视频中乘务员的人脸多维特征信息、玩手机以及驾驶室车门开闭等特征,采用 Hu 矩不变量特征辅助分析乘务员的盹睡状态,从而及时提醒司机规范驾驶行为,实时预警,对保障行车安全具有重大意义。关键词:多维度视频融合;轻量级网络;Hu 矩不变
3、量;3D-ResnetResearch on the Monitoring Technology of Locomotive Crew On-Duty StateLI Gantao1,ZHU Anping1,LI Huoxing2(1.Locomotive Department of China Railway Nanchang Bureau Group Co.,Ltd.,Nanchang 330000,China;2.Zhengzhou Think Freely Hi.Tech.Co.,Ltd.,Zhengzhou 450000,China)Abstract:The multi-dimens
4、ional video fusion perception technology is used to conduct real-time analysis on the duty status of locomotive crew members.The video is obtained in real time through the image acquisition equipment in front of the crew members and the image acquisition equipment at the upper back.First,the video i
5、mage is dynamically self adaptively corrected.Then,the mobile yolov3 lightweight network is used to detect the multi-dimensional feature information of the crew members faces in the video,mobile phones,cab door opening and closing and other features,Hu moment invariants are used to assist the analys
6、is of the sleeping state of the stewards,so as to timely remind drivers to regulate driving behavior and give real-time warning,which is of great significance to ensure driving safety.Keywords:multi-dimensional video fusion;lightweight network;Hu moment invariants;3D-Resnet0 引 言长期以来,机车乘务员因工作场所处于相对封闭
7、的司机室内,其作业行为难于被实时监督。机务系统两违中乘务员违反作业标准的违章尤为突出,比较典型的违章有中断瞭望、玩手机、盹睡、离岗等。通过跟客户沟通,机车运行过程会出现车门未关闭的情况,这些都是行车安全的重大隐患。因此,基于机器视觉的乘务员值乘状态检测技术成为国内外研究的热点。王荣本1等人提出通过分析驾驶员的眼睛和嘴巴的开闭频率两种状态信息检测驾驶疲劳状态,并且结合安全车距的检测,提升了系统的安全性。疲劳程度估计法 PERCLOS2是很多学者研究人的疲劳状态采用的方法。该方法通过分析眼睛的闭合程度估计驾驶员的疲劳程度。随着深度学习技术的崛起,其在实际应用中的准确率及泛化能力都有了质的提升。冯文
8、文3等人提出以 softmax损失与中心损失相结合的深度卷积神经网络算法,通过提高类间差异性、类内紧密性提升了疲劳检测的准确率。中科院计算所山世光团队开源的深度学 作者简介:李干涛(1976),男,本科,高级工程师,研究方向为机务运用。52电视技术 第 46 卷第 12 期(总第 565 期)PARTS&DESIGN器件与设计习人脸识别4-5算法,包含了人脸检测、特征点对齐、头部姿态、眼睛状态检测、头部姿态、人脸识别等多个模块对人脸部特征进行了分析。姚康6提出了一种基于 N-RANGE 跟踪识别机车乘务员眼睛状态的方法输出司机值乘状态。为了对司机值乘状态进行更全面准确的分析,本文采用多维度视频
9、融合感知技术,对机车乘务员的值乘状态进行实时监测,提前对机车乘务员异常行为进行预警,督促其严格按标作业。1 算法设计方案机车运行过程图像采集设备采集图像的质量受外界光线的干扰较大,主要有以下四种情况:(1)采集设备在光线暗时自动启用红外补光,产生脸部曝光的情况;(2)机车快速运行时,人脸会呈现忽明忽暗、亮度不均匀的情况;(3)机车乘务员戴眼镜,容易反光,导致看不见眼睛的情况;(4)外界光线特别强烈、比较刺眼时,乘务员眼睛处于微睁状态,可能被误判为闭眼。多维度视频融合感知技术即融合了图像校正、目标检测和小眼睛的 Hu 矩不变量特征分析技术。图像校正采用动态自适应伽马变换技术对过亮或暗的图像进行校
10、正。目标检测技术采用轻量级网络 mobilenet-yolov37检测盹睡、玩手机、抽烟及吃东西等行为信息。Hu 矩不变量特征通过分析前后帧小眼睛的变化状态提升盹睡检测的准确率。多维度视频融合感知技术检测的乘务员的行为特征如图 1 所示。乘务员前方图像采集设备乘务员后上方图像采集设备结合多维度信息以及针对小眼睛的Hu矩不变量特征分析,提升乘务员盹睡检测的准确率抽烟打电话人脸多维特征信息:人脸、戴口罩人脸、睁眼、闭眼、张嘴、闭嘴、戴眼镜反光、戴眼镜不反光玩手机车门开闭图像校正人体特征信息:站立、坐下、平躺、脚蹬操作台、手势动作等Mobilenet-yolov3图 1 多维度视频融合感知技术2 算
11、法技术实现2.1 动态自适应图像校正技术对于曝光或亮度不均匀的图像,采用动态自适应伽马变换技术进行图像校正,如式(1)所示。通过计算图像的平均灰度值动态设置阈值,对于过亮的图像,设置伽马值在 1.1 1.6,对于暗的图像,设置伽马值在 0.6 0.9,从而达到对曝光过暗的图像进行校正。P=aV (1)式中:指数为伽马值;a为权重参数,通常设置在0.91;V取值在01,可对图像像素进行归一化。图 2 为测试人员模拟测试图片校正前后对比图。2.2 目标检测技术2.2.1 yolov3 网络yolov38是一个端到端的单阶段区域回归模型,基础网络采用 darknet-53 网络(不包含池化层、全连接
12、层和 softmax 层)提取特征,然后通过 3 个不同尺度特征图预测目标对象。多个尺度特征能够提取更加细粒度的特征,适应于不同大小的目标,提升了目标检测准确率。(a)原图 (b)=0.7图 2 图像校正效果对比2.2.2 mobilenet 网络mobilenet 网络是采用深度可分离卷积替代标 电视技术 第 46 卷第 12 期(总第 565 期)53PARTS&DESIGN器件与设计准卷积构建的轻量级网络模型,标准卷积是用每个卷积核对所有输入通道进行卷积。深度可分离卷积由深度卷积和逐点卷积构成,其中深度卷积是每个输入通道对应一个卷积核,逐点卷积是 11 的标准卷积。假设输入特征图大小为W
13、N,通道数为M,卷积核大小为DKDK,输出特征图的通道数为N,标准卷积的计算量为O1,如式(2)所示。深度可分离卷积的计算量为O2,如式(3)所示。对比两个卷积的计算量O,如式(4)所示。此轻量级网络的卷积操作明显地减少了的计算量。O1=DKDKMNWH(2)O2=DKDKMWH+MNWH(3)12211/KOOOND=+(4)2.2.3 mobilenet-yolov3 网络目标检测技术采用轻量级网络 mobilenet-yolov3,其主干网络采用 MobileNet 网络,代替了yolov38中的 Darknet53 网络,减少了主干网络中卷积运算的部分,极大地减少了网络的整体计算量。m
14、obilenet-yolov3 网络结构图如图 3 所示。DBLInputDSCDSCDSCDBLDBL COVDBL COVDBL COVDBLDBLDBLDBLUpSDoS6525BNDBLCOVLRUBNDSCDCVReluBNPCVReluUpS:上采样DoS:下采样COV:卷积PCV:点卷积LRV:LeakyRelu卷积模块DCV:深度卷积深度可分离卷积mobilenetOutPut131351226262565252128图 3 mobilenet-yolov3 网络结构2.2.4 mobilenet-yolov3 网络应用在乘务员状态检测方面,mobilenet-yolov3 网
15、络具有多种应用功能。(1)网络应用于盹睡检测。mobilenet-yolov3 网络对于乘务员前方图像采集设备采集的图像进行盹睡状态检测,环境良好时,检测准确率达到 98%。而机车行车过程中,外界光线会对乘务员造成干扰,乘务员会出现眯眼或戴眼镜反光状态,因此需要进行多维度特征综合分析。通过 mobilenet-yolov3 网络快速检测人脸的相关信息,包括人脸、戴口罩人脸、睁眼、闭眼、戴眼镜、眼镜、张嘴、闭嘴、吸烟、打哈欠等特征,综合多特征信息辅助分析,可判断人是否盹睡。图 4 为目标检测网络检测的人脸多 特征图。多特征信息辅助分析流程如图 5 所示,通过对连续时间内多帧人脸图像的多维特征进行
16、分析,如果目标检测网络输出有闭眼特征,需增加人脸其他状态的分析。若嘴巴开合频率P 0.5,头部摆动幅度B 50,打哈欠频率C 0.1,即为疲劳状态,反之则为正常状态。(a)戴口罩睁眼 (b)戴口罩闭眼 (c)戴眼镜反光图 4 mobilenet-yolov3 网络检测人脸多特征(2)网络在其他状态的应用。对于乘务员后上方图像采集设备采集的图像,利用 mobilenet-yolov3 网络多目标分类检测特性可检测更多关键特征,如玩手机、手势、站立、坐下、平躺以及车门开闭 状态。54电视技术 第 46 卷第 12 期(总第 565 期)PARTS&DESIGN器件与设计(a)测试人员玩手机(b)测试人员平躺图 6 多目标特征检测效果图2.3 小眼睛状态分析mobilenet-yolov3 对小眼睛或眯眼的情况大概率会检测为闭眼,这样会造成误判。在正常状态下人是需要眨眼的,眨眼时眼睛状态是由凸字形状变为平线或凹字形状的。为了提取眨眼特征,通过提取连续前后帧眼睛区域 Hu 矩不变量2特征,计算平均差值,根据差值统计眼睛图像的变化状态,对于平均差值小的判定为闭眼,反之则判定为眨眼。图 7 为实际