1、2023 年 5 月May 2023第 44 卷第 3 期Vol 44No 3doi:10 3969/j issn 1671 7775 2023 03 010开放科学(资源服务)标识码(OSID):基于改进 Faster CNN 的驾驶员手持通话检测王彬1,2,李小曼1,赵作鹏1(1 中国矿业大学 计算机科学与技术学院,江苏 徐州 221116;2 江苏联合职业技术学院 信息技术系,江苏 徐州 221008)摘要:针对现有驾驶员通话行为识别误判率较高的问题,提出一种基于改进 Faster CNN 的驾驶员行为检测方法,对驾驶员的违规手持通话进行检测 介绍了针对区域建议网络(PN)及其损失函数的
2、优化策略,并在原始 Faster CNN 上运用多尺度训练、增加锚点数量以及引入残差扩张网络的方法增强网络检测不同尺寸目标的鲁棒性 基于车载平台上采集的驾驶员行为图像,对文中提出的方法进行仿真试验 结果表明:PN 和 Faster CNN 通过交替优化共享特征提取网络部分,实现高效的目标检测,相较于原始 Faster CNN,检测精确度提高了 3.8%,对环境的适应性更强关键词:驾驶员危险行为;目标检测;分神驾驶;驾驶辅助;多尺度训练;残差扩张网络;FasterCNN中图分类号:TP391.4文献标志码:A文章编号:1671 7775(2023)03 0318 06引文格式:王彬,李小曼,赵作
3、鹏 基于改进 Faster CNN 的驾驶员手持通话检测J 江苏大学学报(自然科学版),2023,44(3):318 323收稿日期:2021 09 06基金项目:国家自然科学基金资助项目(61976217);徐州市重点研发项目(KC18082)作者简介:王彬(1978),男,江苏徐州人,副教授(2089280082 qq com),主要从事人工智能、网络技术、图像识别等研究赵作鹏(1977),男,江苏徐州人,博士,副教授(3239058628 qq com),主要从事人工智能、网络技术研究Hand-held call detection of driver based on improved
4、 Faster CNNWANG Bin1,2,LI Xiaoman1,ZHAO Zuopeng1(1 School of Computer Science and Technology,China University of Mining and Technology,Xuzhou,Jiangsu 221116,China;2 Department of Information Technology,Jiangsu Union Technical Institute,Xuzhou,Jiangsu 221008,China)Abstract:To solve the problem of hig
5、h false positive rate of existing driver call behavior recognition,animproved Faster CNN was proposed based on driver behavior detection method for detecting the illegalhand-held call of driver An optimization strategy for the region proposal network(PN)and the lossfunction was introduced,and the ro
6、bustness of the network in detecting targets with different sizes wasenhanced by applying multi-scale training,increasing the number of anchor points and introducing theresidual expansion network on the original Faster CNN The simulation experiments of the proposedmethod were conducted with the imag
7、es of driver behavior collected on an in-vehicle platform The resultsshow that compared with original Faster CNN,PN and Faster CNN can realize efficient targetdetection by alternatively optimizing the shared feature extraction network part with 3.8%improvement indetection precision and better adapta
8、tion to the environmentKey words:drivers dangerous behavior;target detection;distracted driving;ADAS;multi-scaletraining;residual expansion network;Faster CNN第 3 期王彬等:基于改进 Faster CNN 的驾驶员手持通话检测319近年来人均汽车保有量不断增加,交通安全问题日益严峻 2018 年以来,我国公路交通领域发生了多起事故,其中根据公安部发布的(中国)道路事故年度统计 显示数据,驾驶员的不规范行为是造成事故的主要原因 不规范行为
9、包括司机在驾驶中接打电话、抽烟、与乘客交谈1 等等 近年来,智能手机已成为大多数人生活中不可或缺的一部分,美国公路安全保险协会的调查数据显示,有近六成的驾驶员在驾驶途中手持通话 在驾驶途中手持通话必然会造成驾驶员分心,反应速度变慢,从而对车外的状况不能做出及时的反应,因此造成交通事故 目前,驾驶员手持通话行为的检测方法主要包括基于 WiFi 手机信号和机器视觉两种 2018 年 TAABAY 等2 研究了听觉分神对驾驶操作的影响,通过设置不同层级的认知问题模拟驾驶过程中次任务的工作量,监测心率和皮电变化用以表达认知量增加对生理状态的影响 基于机器视觉的方法,通过车内或者车外的摄像头拍摄驾驶员图
10、像,经相应算法判断驾驶员是否处于手持通话的行为状态3 检测手机是检测驾驶员手持通话行为状态的重要方法和依据 近年来使用深度学习方法 4 进行分神检测的研究日臻丰富,2019 年,夏瀚笙等 5 利用Alpha Pose 系统获取驾驶员 9 个身体节点并生成热力图,分别讨论了 8 种改进型的 VGG16 和 esNet50在 SF3D 上的分类识别率,最优精度为 94.93%同时,目标检测6 8 的方法也有重大突破 因此,改进型的目标检测框架 Faster CNN9 开始应用于交通驾驶领域,文中主要设计一种改进的 Faster CNN算法来检测驾驶员手持通话的行车状态现有的高级驾驶辅助系统(adv
11、anced driver as-sistance system,ADAS)主要关注点在碰撞和对航道偏离的预警上,但对驾驶员行为状态的研究还较为欠缺,文中的工作可视为对 ADAS 的延伸 文中拟根据研究对象的特点对 Faster CNN 算法进行改进,并应用于图像中手机小物体的检测,第 1 次将 Fas-ter CNN 目标检测算法应用于驾驶员行为检测特定场景任务中,并提出一种新的检测算法,运用多尺度训练、增加锚点数量以及引入残差扩张网络提取特征的手段提高检测精度1检测方法传统的图像检测方法是基于可变形部件模型(deformable part model,DPM)的,在 VOC2007 数据集中
12、,它的平均精度(mean average precision,mAP)可以达到 43%研究人员将 CNN 强大的分类能力应用于图像检测 最新提出的 Faster CNN 框架在VOC2007 数据集上的 mAP 可达到 73%研究表明,Faster CNN 网络模型在各种复杂背景下对各种类别目标都具有很强的鉴别能力 所以,文中将 FasterCNN 模型应用到驾驶员手持通话场景检测中1.1Faster CNN 简介Faster CNN 由两个模块组成:生成候选区域的区域建议网络(region proposal network,PN)模块和 Faster CNN 目标检测模块 PN 模块产生候选
13、区域,并利用“注意力”机制,让 Faster CNN 有方向性地检测目标 首先,PN 预先产生可能是手机的一系列目标候选框,然后 Faster CNN 基于提取出的候选框对目标检测识别1.1.1区域建议网络PN 的基本思想是在特征图上找到所有可能的目标候选区域,通过在原始的网络结构上添加卷积层和全连接层、在每个位置上标定回归目标边界框和预测目标分数,提升边界框的生成速度 PN结构如图 1 所示图 1PN 结构图PN 采用的是滑动窗口机制,每个滑动窗口都会产生 1 个短的特征向量输入到全连接层中进行位置和类别的判断,在每个滑动窗口位置同时预测多个候选区域,其中每个位置的预测候选区域的数量为 k
14、个 因此,回归层具有 4k 个输出,编码 k 个框的4 个坐标,分类层输出 2k 个评分,预测每个区域所属目标的概率和所属背景的概率 k 个候选框被参数化,称为 k 个锚点 为了使算法更好地适用于不同形状和尺寸的目标,网络将特征图上的每个位置设置多个锚点,以预测输入图像的不同尺度和不同长宽比的候选区域1.1.2区域建议网络的损失函数在训练 PN 时,为每个候选框分配 1 个二值标320第 44 卷签,将以下两种情况分配正标签:某个真实目标区域框的 IoU(intersection over-union)最大的候选框;任意真实目标区域框的 IoU 大于 0.7 的候选框 为所有真实目标候选框的
15、IoU 小于 0.3 的候选框分配负标签,然后进行网络训练并微调参数 图像的损失函数定义为L(pi,ti)=1NclsiLcls(pi,p*i)+1Nregip*iLreg(ti,t*i),(1)式中:ti和 t*i的定义为tx=(x xa)/wa,ty=(y ya)/ha,tw=log(w/wa),th=log(h/ha),t*x=(x*xa)/wa,t*y=(y*ya)/ha,t*w=log(w*/wa),t*h=log(h*/ha),(2)式中:(x,y)为包围盒的中心点坐标;(xa,ya)为候选框的坐标;(x*,y*)为真实区域包围盒的坐标;w和 h 为包围盒的宽和高 算法的目的在于找
16、到一种关系将原始框 P 映射到与真实框 G 更接近的回归框分类的损失函数 Lcls定义为Lcls(pi,p*i)=log p*ipi+(1 p*i)(1 pi)(3)回归的损失函数 Lreg定义为Lreg(ti,t*i)=(ti t*i),(4)式中:为 smoothL1函数 smoothL1函数表达式为smoothL1(x)=0 5x2,|x|1,|x|0 5,|x|1(5)1.1.3PN 与 Faster CNNFaster CNN 基于 PN 产生的候选区域边界框来检测并识别候选框中的手机物体目标 训练过程中,首先将带有标注的数据集输入到网络中,通过卷积网络10进行特征提取,然后将 PN 产生对应的候选区域映射到该特征图中,获得相应的特征信息 再通过感兴趣区域(OI)池化层产生固定大小的特征图输入到全连接层中,产生目标所属类别概率和区域坐标 PN 和 Faster CNN 通过交替优化共享特征提取网络部分,实现高效的目标检测1.2改进的 Faster CNN为了使 Faster CNN 模型能够更好地应用于手机目标检测,文中提出在原始 Faster CNN 基础上结合多尺度训练、