1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide多尺度注意力机制DenseNet网络的表情识别方法郑伟(南京邮电大学 通信与信息工程学院,江苏 南京 210003)摘要:面部表情识别是人机交互研究领域的核心之一,现有的基于传统手工特征的面部表情识别方法难以应用在复杂多变的应用场景中。基于此,提出一种多尺度注意力机制的密集连接网络(DenseNet)表情识别方法。该网络模型对DenseNet121网络层数进行了简化,并引入多尺度结构和通道注意力模块MECANet,使得网络提取的面部表情特征更具判别性,有利于后续网络的表情分类。网
2、络模型采用随机梯度下降算法进行训练,在CK+和FER2013数据集上取得了较高的识别率,分别达到96.2%和85.5%,与DenseNet121网络相比提高了8.4%和8.6%。关键词:面部表情识别;密集连接网络;多尺度结构;MECANetDOI:10.11907/rjdk.221242开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391.41 文献标识码:A文章编号:1672-7800(2023)002-0081-06Expression Recognition Method Using DenseNet Based on Multi-scale Attention
3、 MechanismZHENG Wei(School of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)Abstract:Facial expression recognition is one of the core of human-computer interaction research field.The existing facial expression recognition methods ba
4、sed on traditional manual features are difficult to be applied in complex and changeable application scenes.Based on this,an expression recognition method of DenseNet network with multi-scale attention mechanism is proposed.The network model simplifies the layers of DenseNet121 network,inserts multi
5、-scale structure and channel attention module MECANet,which makes the facial expression features extracted by the network more discriminative and conducive to the expression classification of subsequent networks.The network model is trained by random gradient descent algorithm.High recognition rates
6、 are achieved on CK+and FER2013 data sets,reaching 96.2%and 85.5%respectively,which are 8.4%and 8.6%higher than DenseNet121 network.Key Words:facial expression recognition;DenseNet;multiscale structure;MECANet0 引言面部表情识别方法是人机交互领域的重要核心,已经广泛应用于在线教育、疲劳驾驶检测等领域1-3。关于面部表情识别的研究历经了两个阶段:基于传统手工特征的表情识别和基于深度神经网络
7、的表情识别。在传统手工特征的表情识别研究阶段,针对图像的几何、纹理和轮廓等方面设计手工特征算子作为后续表情分类判别的依据,在特定的场景下取得了较高的识别效果。比如KARANWAL等4通过对图像纹理特征LBP进行改进并引入正交编码,能够提取更具判别性的图像纹理特征,取得较好的表情分类效果;LIN等5对图像轮廓特征HOG进行改进,通过对表情敏感区赋予更高的权重来提高表情识别率。然而面对复杂的实际应用场景,如光照条件复杂、脸部局部遮挡等情况,基于传统手工特征的表情识别率就会出现大幅下降的问题。因此,随着深度学习理论的不断突破和大数据时代的到来,将神经网络应用于表情识别领域成为可能。其中卷积神经网络在
8、图像识别领域表现优异,代表性的卷积网络有 VGG196、ResNet7等网络,并诞生了许多对卷积网络的改进以更适用于表情识别领域,如LIU等8对Le-Net5网络进行了改进,引入高低层跨连接思想,丰富网络提取的特征,提高了网络的识别率;ZHANG等9针对VGG19因叠加过多卷积层造成识别率下降的问题进行了改进,引入空间金字塔池化来提高特征表达能力。然而以上神经网络虽然都通过改进网络结构提高了识别率,但采收稿日期:2022-03-07作者简介:郑伟(1996-),男,南京邮电大学通信与信息工程学院硕士研究生,研究方向为面部表情识别算法。2023 年软 件 导 刊用的网络都存在网络层数过浅,在面对
9、其他不同数据集时无法保持较强的泛化能力。针对上述问题,本文选择DenseNet12110进行改进,通过简化网络层数、引入多尺度结构和通道注意力模块MECANet,提高了DenseNet网络在表情识别领域的识别能力。1 DenseNet121网络模型DenseNet121网络模型是Gao等11于2017年提出的密集连接卷积神经网络模型。该网络模型通过设计密集连接的稠密块加强了特征的传播,减少网络的参数量,缓解了网络模型过深导致的“梯度弥散”问题,从而提高了深度神经网络的识别率。DenseNet121网络模型结构如图1所示,整个网络模型由一个77的卷积核构成的初始化卷积层、4个稠密块、3个过渡层、
10、一个77的全局最大池化层以及一个输出层组成。1.1稠密块DenseNet121网络模型与一般的卷积神经网络结构不同,其特有的稠密块让网络不再依赖最后一层输出的高语义特征向量作为分类识别的唯一依据,每个稠密块包含不同数量的卷积块,其独特的密集连接结构实现了其包含的每个卷积块的输入值都是向前所有卷积块输出值的并集,具体实现如图2所示。假设稠密块中的卷积块1的输入特征向量为X0,通过卷积块1中的非线性转化函数H1,输出特征向量X1,因稠密块特有的密集连接的结构,故卷积块1输出特征向量为 X0,X1 并作为卷积块2的输入向量,以此类推,稠密块中第 n 个卷积块的输出特征向量可以表示为:Fn=X0,X1
11、,.,Xn-1,Hn(X0,X1,.,Xn-1)(1)这种密集连接结构加强了特征的传播,有利于提高提取特征信息的丰富性,并且由于每层输入都包含了前层所有的特征信息,在提取下层的特征时只需要提取很少的特征图,因而也在一定程度上减少了网络模型的参数量。1.2过渡层DenseNet121网络模型中的稠密块之间都会插入过渡层,其主要作用是对稠密块提取出的特征向量在通道维度和空间维度两个方面进行降维,其具体实现结构如图3所示。每个过渡层主要由两个部分组成:瓶颈层12和池化层,瓶颈层的作用相当于滤波器,对输入的特征向量在通道维度上进行压缩,池化层的作用是对每个通道上的特征向量进行空间维度上的降维。稠密块稠
12、密块池化层稠密块输出层过渡层初始化卷积层稠密块卷积层过渡层过渡层Fig.1DenseNet121 network model structure图1DenseNet121网络模型结构 X0X0X1X0X1X2X0X1X2X3H1H3H2卷积块1卷积块2卷积块3Fig.2Dense block structure图2稠密块结构 Batch NormalizationRelu1 1 Conv瓶颈层池化层AveragePooling2D输入特征向量输出特征向量Fig.3Transition layer structure图3过渡层结构 82第 2 期郑伟:多尺度注意力机制DenseNet网络的表情识
13、别方法2 多尺度注意力机制的DenseNet网络模型本文针对 DenseNet121网络进行三个方面的改进:第一,DenseNet121包含4个稠密块,每个稠密块包含的卷积块个数分别为6、12、24、16,实现1 000种图像的分类。而本文仅需要实现对7类表情图像的分类,采用的表情数据集若直接应用于DenseNet121网络,会造成因模型参数得不到充分训练而导致的过拟合问题,因此对DensNet121的网络层数进行一定程度的简化。第二,DenseNet121输入的图像大小为2242243,初始化卷积层采用的卷积核大小为77,本文输入的图像大小为48481,为了提取图像更为细腻和丰富的特征,将初
14、始化卷积层替换为Inception网络13中的多尺度结构。第三,针对每个稠密块提取出的多通道特征向量,需要对不同通道特征向量依据对表情分类的贡献程度赋予不同的权值,因此引入本文设计的新型通道注意力模块MECANet。改进后的DenseNet网络模型如图4所示。2.1多尺度卷积层本文采用的多尺度卷积层的具体结构如图 5 所示。该结构通过并行执行不同尺度大小的卷积核来获取不同尺度上的图像特征信息,然后通过整合不同尺度的图像特征信息,获取更丰富的表情特征。此外,该结构在不同尺度大小的卷积核之前都插入了一个11的卷积核,该卷积核的作用相当于一个滤波器,缓解了使用不同尺度卷积核带来的模型参数量增加的情况
15、,提升了网络的训练速度。2.2新型注意力模块:MECANetMECANet模块是对通道注意力模块的ECANet14的改进,具体结构如图 6所示。原始的 ECANet只依赖全局平均池化(Global Average Pool,GAP)来获得各通道全局空间信息的特征描述符,接着再经过一维卷积层和非线性的激活函数Sigmoid来建立各通道的依赖关系。为了更为完善的提取有价值的特征,减少压缩空间信息过程中的损失,本文提出了 MACANet通道注意力模块,首先分别对各通道特征信息进行全局平均池化、全局最大池化(Global Max Pool,GMP)和全局随机池化(Global Stochastic P
16、ool Pool,GSP)来压缩全局空间信息,然后再分别送入一维卷积网络和激活函数层获得各通道依赖关系,最后融合各通道提取出的依赖关系并对多通道特征信息进行赋值,获得更具判别性的表情特征。具体计算公式如下:Wc=(Conv(AvgPool(F),w)+Conv(MaxPool(F),w)+Conv(StoPool(F),w)(2)Fc=FUWc(3)其中,Wc表示经过 MECANet模块后生成的通道权重矩阵,F、FC分别表示经过通道权重矩阵加权前后的特征向量,()表示激活函Sigmoid函数的运算公式。过渡层稠密块过渡层输出层池化层稠密块稠密块过渡层多尺度卷积层卷积层MECAMECAMECAFig.4Multi-scale attention module DenseNet structure图4多尺度注意力模块DenseNet结构Fig.5Multi-scale convolution layer structure图5多尺度卷积层结构 GAPGMPGSPConv1DkCH WC1 1C1 1SigmoidCH WC1 1Fig.6MECANet structure图6MECANet