1、 基于改进M o b i l e N e t V 2的人脸表情识别*严春满,张 翔,王青朋(西北师范大学物理与电子工程学院,甘肃 兰州 7 3 0 0 7 0)摘 要:针对现有深度卷积神经网络参数量庞大,导致人脸表情识别场景受限的问题,提出一种基于改进轻量级卷积神经网络的人脸表情识别模型。该模型以M o b i l e N e t V 2轻量级特征提取网络为主要框架,通过压缩网络宽度因子与整体维度,减少网络参数量与计算量;引入S a n d G l a s s模块对网络倒残差模块进行改进,减少特征信息在网络传输中的丢失;同时嵌入高效通道注意力机制,提高网络对于特征信息的提取能力。在人脸表情数据
2、集F E R 2 0 1 3和C K+上进行实验,所提网络模型的人脸表情识别准确率达到了6 8.9 6%与9 5.9 6%,分别高于M o b i l e N e t V 2 1.0 6%与6.1 4%,且参数量下降8 2.2 8%,实验结果验证了网络模型改进措施的有效性。关键词:人脸表情识别;轻量级网络;M o b i l e N e t V 2;倒残差模块;通道注意力中图分类号:T P 3 9 1.4 1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 4F a c i a l e x p r e s s
3、i o n r e c o g n i t i o n b a s e d o n i m p r o v e d M o b i l e N e t V 2YAN C h u n-m a n,Z HANG X i a n g,WANG Q i n g-p e n g(C o l l e g e o f P h y s i c s a n d E l e c t r o n i c E n g i n e e r i n g,N o r t h w e s t N o r m a l U n i v e r s i t y,L a n z h o u 7 3 0 0 7 0,C h i n a
4、)A b s t r a c t:A i m i n g a t t h e p r o b l e m t h a t t h e e x i s t i n g d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k h a s a l a r g e a-m o u n t o f p a r a m e t e r s,w h i c h l e a d s t o t h e l i m i t a t i o n o f f a c i a l e x p r e s s i o n r e c o g n i t i
5、 o n s c e n e s,t h i s p a p e r p r o p o s e s a f a c i a l e x p r e s s i o n r e c o g n i t i o n m o d e l b a s e d o n i m p r o v e d l i g h t w e i g h t c o n v o l u t i o n a l n e u r a l n e t-w o r k.T h e m o d e l t a k e s M o b i l e N e t V 2 l i g h t w e i g h t f e a t u
6、 r e e x t r a c t i o n n e t w o r k a s t h e m a i n f r a m e w o r k,b y c o m p r e s s i n g t h e n e t w o r k w i d t h f a c t o r a n d t h e g l o b a l d i m e n s i o n,t h e n u m b e r o f n e t w o r k p a r a m e t e r s a n d t h e a m o u n t o f c o m p u t a t i o n a r e r e
7、 d u c e d.S a n d G l a s s b l o c k i s i n t r o d u c e d t o i m p r o v e t h e r e v e r s e r e s i d u a l m o d u l e i n t h i s n e t w o r k,a n d r e d u c e t h e l o s s o f f e a t u r e i n f o r m a t i o n d u r i n g n e t w o r k t r a n s m i s s i o n.A t t h e s a m e t i m
8、 e,t h e e f f i c i e n t c h a n n e l a t t e n t i o n m e c h a n i s m i s e m b e d d e d t o i m p r o v e t h e n e t w o r k s a b i l i t y t o e x-t r a c t f e a t u r e i n f o r m a t i o n.E x p e r i m e n t s w e r e c a r r i e d o u t o n t h e f a c i a l e x p r e s s i o n d a
9、 t a s e t s F E R 2 0 1 3 a n d C K+.T h e f a c i a l e x p r e s s i o n a c c u r a c y r a t e o f t h e p r o p o s e d n e t w o r k r e a c h e s 6 8.9 6%a n d 9 5.9 6%,w h i c h a r e 1.0 6%a n d 6.1 4%h i g h e r t h a n t h a t o f M o b i l e N e t V 2 r e s p e c t i v e l y,a n d t h e
10、 n u m b e r o f p a r a m e t e r s a r e d e c r e a s e d b y 8 2.2 8%.E x p e r i m e n t a l r e s u l t s v e r i f y t h e e f f e c t i v e n e s s o f t h e i m p r o v e d n e t w o r k m o d e l.K e y w o r d s:f a c i a l e x p r e s s i o n r e c o g n i t i o n;l i g h t w e i g h t n
11、e t w o r k;M o b i l e N e t V 2;i n v e r t e d r e s i d u a l b l o c k;c h a n n e l a t t e n t i o n*收稿日期:2 0 2 1-1 1-2 9;修回日期:2 0 2 2-0 5-0 5基金项目:国家自然科学基金(6 1 9 6 1 0 3 7);甘肃省教育厅2 0 2 1年度产业支撑计划(2 0 2 1 C Y Z C-3 0)通信地址:7 3 0 0 7 0 甘肃省兰州市西北师范大学物理与电子工程学院A d d r e s s:C o l l e g e o f P h y s
12、i c s a n d E l e c t r o n i c E n g i n e e r i n g,N o r t h w e s t N o r m a l U n i v e r s i t y,L a n z h o u 7 3 0 0 7 0,G a n s u,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0
13、 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 7 1-0 81 引言人脸表情识别F E R(F a c i a l E x p r e s s i o n R e c o g-n i t i o n)1是指从给定的静态图像或者动态视频中提取出表情特征并加以判定的过程,从而确定识别对象的心理情绪。人脸表情识别作为人机交互的重要途径,是机器理解人类感情的前提。近年来,人脸表情识别技术在交通安全、抑郁症治疗和课堂质量检测等方向迅速发展。例如疲劳监测时根据驾驶员的面部表情变化判断其精神状态;抑郁症治疗时利用患者面部表情推测其心理变化;课堂中通过检测学生面部表情判断
14、教师课堂教学质量。在表情识别技术的实际应用中,由于传统的卷积神经网络C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)参数量大,对硬件设备要求高,存在应用场景受限问题。因此,对应用范围广泛的轻量级人脸表情识别网络进行研究具有重要意义。早在1 9 7 8年,S u w a等2开始尝试使用机器学习的方式在一段人脸表情的动态视频中进行最初的表情识别。1 9 9 6年,P a d g e t t等3使用主成分分析提取人脸图像中图像子块的主元,并利用前1 5个主元提取人脸图像特征,输入到具有非线性激活函数的神经网络中进行表情识别。2 0 0
15、 2年,F a-s e l4研究发现C NN对于位置变化和尺度变化具有鲁棒性,在人脸表情识别领域的性能优于多层感知机。在利用卷积神经网络进行表情识别时,先通过网络模型中的特征提取层对人脸面部表情特征进行提取,然后神经网络对具有判别性的表情特征进行学习训练,最后分类器依据学习到的表情特征对面部表情进行分类,从而形成一个端到端的识别分类过程。卷积神经网络在人脸表情识别领域中发展迅速,已成为该领域主要研究方法之一,但在实际应用中,由于受硬件设备的影响,存在内存不足、延迟高等问题。网络模型需要轻量化以满足现实场景的要求。研究人员通过设计轻量化网络5、模型剪枝和知识蒸馏等方式不断对网络模型参数量进行压缩
16、,降低其对空间和计算能力的要求,并将其应用在人脸表情识别的各类场景中。N g u y e n等6为了平衡面部表情分类问题的速度和准确性,采用S E-b l o c k与S q u e e z e N e t组合的模型,对人脸表情进行识别。F a t i m a等7通过C NN与X c e p-t i o n网络结合的方式,在确保整体模型准确率的基础上,使得模型参数量少于传统卷积神经网络的参数量。D o n g等8提出一种基于P C D-C NN(P o s e C o n d i t i o n e d D e n d r i t i c C NN)网络的表情识别模型,利用P C D-C NN对人脸图像进行处理,有效地提取人脸表情特征信息。为了加速模型的训练速度,P C D-C NN基于S h u f f l e N e t-v 2框架,在参数量较小的情况下保持了较好的性能。上述表情识别网络模型主要存在以下几个问题:(1)表情特征在特征提取层中传输时存在特征丢失现象,使得网络模型表情分类准确率受到影响;(2)对于一些要求苛刻的边缘设备,上述网络模型结构过于复杂且参数量较大,网络模型无法