基于持续时空注意力网络的人脸微表情识别_叶天祺.pdf-资源下载-蜗牛文库-知识共享服务平台

基于持续时空注意力网络的人脸微表情识别_叶天祺.pdf

1、收稿日期：。基金项目：国家自然科学基金资助项目（）；国家级大学生创新创业训练计划项目（）。通信作者：曾张帆（），男，副教授，博士。：。叶天祺，曾张帆基于持续时空注意力网络的人脸微表情识别南昌大学学报（理科版），（）：，（），（）：基于持续时空注意力网络的人脸微表情识别叶天祺，曾张帆，（湖北大学计算机与信息工程学院，武汉；湖北省教育信息化工程技术研究中心，武汉）摘要：人脸微表情具有持续时间短，运动幅度小，只发生在面部局部区域的特点，给微表情的准确识别带来了极大的挑战。针对上述问题，提出一种基于持续时空注意力网络（，）的人脸微表情识别算法。该算法由主、副两个通道组成，主通道为持续时空注意力模块

2、，副通道为位置校准模块。首先主通道进行离散采样，等间隔抽取原始视频帧组成一个新的视频序列，利用帧间差分法提取各帧之间的运动差异，再将其输入到持续时空网络，提取面部肌肉运动的时空特征；其次利用副通道提取的面部位置信息对主通道信息进行位置校准，最后将融合信息输入到分类器对微表情进行分类。实验表明在个公开微表情数据集，上该算法识别的平均准确度分别达到了，优于现有其他算法。关键词：微表情识别；帧间差分法；位置校准；持续时空注意力网络；长短期记忆网络中图分类号：文献标志码：文章编号：（），（，；，）：，：，第卷第期年月南昌大学学报（理科版）（）DOI:10.13764/ki.ncdl.2023

3、.01.011 ：；微表情是人们受到外界刺激后，刻意隐藏、压抑真实情绪时表现出来的难以察觉的面部表情。微表情多出自于潜意识，无法掩饰或抑制，反映了一个人在某一刻真实的想法、态度，因此在心理治疗、商业谈判、侦查讯问、教学评估等领域有着广阔的应用前景。近年来，计算机视觉技术和机器学习越来越多地运用于微表情的自动识别。根据提取特征方式的不同，微表情自动识别方法可分为基于手工描述特征和基于深度学习两大类。早期微表情自动识别采用的方法是前者。传统手工特征提取方法主要包括基于局部二值模式的方法和光流法。局部二值模式（）具有灰度不变性等优点，广泛用于图像的纹理分析和识别。然而现有数据集的微表情均是一段视频

4、序列，为了将引入到视频图像处理，等提出个正交平面的局部二值模式（）用于微表情识别，相比于普通的，增加了一个时间维度轴，将局部二值模式拓展到三维，实现了对微表情纹理特征的三维描述。等为解决提取信息不足的问题提出了，在的基础上增加了幅度和方向分量等信息但同时产生了高维特征的问题。等提出算法减少了中的冗余信息，降低了提取特征的复杂度。等提出主方向平均光流特征（），利用光流场来提取微表情的运动信息。传统的手工特征描述打开了微表情自动识别的大门，然而手工特征提取方式不仅需要设置大量的参数来提取微表情特征提高了算法上的复杂度，而且人工提取常常会忽略一些微表情细节，导致微表情识别的准确

5、度往往不高。随着深度学习在图片处理中展现出强大优势，越来越多的研究人员以神经网络为基础进行微表情识别并取得了更高的准确率。等采用视频放大和相结合的方法，实现了神经网络在微表情识别上的应用。等采用的网络将微表情运动的空间域与时间域相结合，进一步深度提取表情特征，相对于维的，微表情识别的准确率得到了提高。文献提出一种可分离式三维卷积网络（），将拆分为两个卷积层，并增加一个激活函数，相比于普通的能更好拟合非线性函数。为解决数据集稀缺导致深度学习网络识别准确率难以提升的问题，等构建了一种双流时间域信息交互的微表情识别卷积网络，引导网络学习序列的时域信息，提高了识别准确率。上述算法往往直

6、接对原始视频序列进行分析，进而引入了无关身份信息，降低识别的准确率。为此，文献构建，利用起始帧和峰值帧之间的差异，提取相关区域肌肉的运动信息和位置信息，减少身份信息对识别的影响，进一步提高了微表情识别的准确度。然而，中仅利用和两帧之间的差异进行运动信息的提取，将遗失微表情序列中的其他重要细节，造成运动信息提取不全，从而降低识别的准确率。此外仅以空间信息为依据以进行微表情的识别、分类，没有充分利用微表情序列的时序信息，而时域信息在微表情的识别中常常发挥着重要作用。针对上述问题，本文采用网络基本概念，提出一种基于持续时空注意力网络的微表情识别算法。该算法由主、副两个并行通道组成，主通道

7、以帧差法获取的运动差异信息作为输入，利用持续时空注意力模型提取肌肉运动的时空信息，副通道以起始帧为输入信息提取脸部位置信息。本文创新点如下：（）采用间隔抽取图像帧策略，利用帧差法提取运动信息，既减少了无效信息的输入，又解决了只取起始帧和峰值帧可能存在信息遗漏的问题。（）空间注意力融合改进的长短期记忆网络，并引入持续时空注意力机制，将上一时刻学习到的信息作为下一时刻学习的先验知识，使网络聚焦学习肌肉运动区域的时空特征。全文结构如下：第零章介绍了微表情识别背景及现有的一些研究；第一章将对本文所提出的持续时空注意力网络原理及实现方法进行系统解释；第二章对所设计的对比试验、消融实验进行结果描述与问题分

8、析；第三章对本文算法进行总结并指出未来可行的研究方向。本文方法本文提出了一种基于持续时空注意力模块和位置校准的微表情识别算法，具体包括视频预处理、特南昌大学学报（理科版）年征提取和微表情分类三个步骤。通过视频预处理得到优化的微表情视频序列，再输入到特征提取模块提取微表情运动的时空特征与肌肉位置特征，将两者进行融合得到完整的微表情特征信息，最后输入分类器进行情绪分类。其流程图如图所示。图持续时空注意力网络视频预处理由于微表情运动幅度小、持续时间短，因此相邻帧之间的运动变化不明显，逐帧输入将引入多余的背景、身份信息等，造成算法冗杂，增加模型学习的复杂度。此外微表情是各个面部区域共同作用的结果，各

9、个部位的运动顶峰可能不一，只提取和之间的差异将忽略肌肉运动的部分细节，影响识别的准确率，因此提出一种等间距离散抽取视频帧策略，并利用帧间差分法提取微表情运动区域。具体过程如下：（）等间隔离散抽取一个完整微表情序列中和之间的帧组成新的帧序列。（）对得到的视频序列进行灰度化处理减少无关信息。（）利用帧间差分法提取肌肉运动区域。帧间差分法帧间差分法是将输入的视频序列帧中的相邻两帧或三帧作差分运算以获得目标运动轮廓的方法。在微表情产生的过程中伴随着目标肌肉的运动，因此目标肌肉在不同的序列帧中的位置不同，将相邻帧相减得到相邻帧之间图像灰度差值的绝对值，并设定一个固定的阈值来判断目标是否发生运动

10、，若图像灰度差的绝对值大于阈值则该部位发生运动否则不发生运动，其公式表达如下。帧间差分法流程图如图所示。（，），（，）（，），其他（）图帧间差分法流程图特征提取持续时空注意力模型持续时空注意力模型将相邻层级之间的时空信息相关联，层级之间学习信息相共享，使得网络对微表情运动活跃部位的注意力得到进一步强化，对面部肌肉微小运动的时空特征提取的准确性也在训练中逐渐提高。本节将具体介绍各模块构成以及模型识别过程。（）空间注意力模块经典的空间注意力模型的主要作用是聚焦空间中有意义的特征部位。空间注意力模型在提取宏观表情的特征时取得了很好的效果，而微表情与宏表情相比肌肉运动幅度非常小，用经典的空间注意力

11、模型就难以准确地提取微表情微妙的运动特征，因此提出一种持续时空注意力模型（如图中持续时空注意力模块所示）。该模型将上一层得到的特征图经过处理输入到下一层，作为下一层的学习的先验知识，增强网络的学习能力。具体来说将输入的视频序列输入到最大池化层和平均池化层得到两个特征描述，将两个特征描述连接起来，通过一个卷积第期叶天祺等：基于持续时空注意力网络的人脸微表情识别层后得到处理后的特征图，经过降维处理得到特征矢量，再输入到长短期记忆网络。其公式描述如下：（，）（）（），（）（）（）（）（）其中为整个网络第次输出的特征矢量，为持续时空注意力模型，为层空间注意力模块输出的结果，为层的映射信

12、息，为激活函数，代表第层滤波器大小为的卷积运算。为输入到第层持续时空注意力模块的特征信息，代表卷积层提取到的时空特征信息。为了保留时空特征的原本信息，我们将得到的特征图与输入网络的信息进行卷积，再进行降维处理得到特征矢量，输入到长短期记忆网络中进行序列间的时间信息提取。（）改进的长短期记忆网络长短期记忆网络（，）可以用来提取微表情运动的时域信息。经典长短期记忆网络由连续细胞模块组成，连接各个模块重要参数是细胞状态，它贯穿于整个模块。以一个细胞模块为例。为保证网络重点关注有用时间序列信息，在每一个模块内设置有个门限分别用于遗忘、更新、输出状态信息。本文对传统的进

13、行了一些改进，建立状态量与遗忘门限的连接通道，即单元状态量也将作为遗忘门限的输入，得到一种具备细胞状态遗忘能力长短期记忆网络，其网络结构如图所示。各部分门限计算公式如下所示：（，）（）（，）（）?（，）（）?（）（，）（）（）（）其中，分别代表遗忘门、输入门、输出门的输出；（，）表示各门限的偏置量；（，）代表权值矩阵，由各门限权值和输入权值两部分组成，是时刻细胞的输出，为时刻细胞状态。（）为函数，层为门限赋予的权值。（）为函数，将会创建候选向量，由?来决定能够输入到细胞状态的新信息。细胞状态的更新由遗忘门限和输入门限来决定。通过遗忘门限来遗弃我们不需要的信息，输入门限来

14、添加新的候选值信息。显然我们不需要细胞状态里的所有信息，我们只关心联系紧密的序列信息，因此得到的细胞状态通过层进行滤过，再乘以输出门限的输出就得到了我们希望要的输出信息。传统的对已经获取的细胞状态更改能力有限，对于输入网络的有害信息无法迅速做出反应，只能通过输出门的层进行过滤。然而函数的筛选作用有限，这会限制对时序信息的有效提取。改进的长短期记忆网络（）在遗忘门限添加细胞状态的窥探（如图黑色加粗箭头所示），使得上一时刻的细胞状态与输入信息、上一层输出信息相融合，组合成新的输入信息，共同参与到遗忘门限的输入，增强了网络对无效信息遗忘的效果，提高了网络的泛化能力。微表情分类利用层将全连

15、接层输出结果分别赋予不同的权重映射成区间为（，）的值，扩大差异值之间的距离。将映射结果中最大的值所对应的情绪作为最终的预测结果。层采用交叉熵作为损失函数，分类类别与每次输入的数据集分类类别保持一致。图改进的长短期记忆网络（）（）实验与结果分析实验数据集本文采用当前微表情识别中常用的公开数据集，和最新数据集对本文提出的方法进行评估验证。数据集包含个受试者的个微表情视频，视频帧率为，每帧分辨率为。该数据集提供了视频起始帧，峰值帧，结束帧的位置及七种相关表情标签。由于数据库中沮丧和恐惧样本数量远少于其他样本，本文实验将只采用幸福、厌恶、压抑、惊讶和其南昌大学学报（理科版）年他种数据样本。

16、数据集包含个受试者的个微表情样本，视频帧率为，分辨率为，数据集提供种微情绪标签：高兴、惊讶、厌恶、悲伤、愤怒、恐惧、蔑视。数据集包括个受试者的个微表情样本，视频帧率为，分辨率为，包括高兴、愤怒、惊讶、厌恶、悲伤和其他六种情绪标签。是年由山东大学等团队发布的新数据集，使用此数据集进行的实验较少，因此本文只将所提算法同进行比较。由于现有的数据集数量少，且可用数据集样本不平衡，因此为保持样本分布相对均衡，本文将各数据集按如下标签进行划分。表三种数据标签划分及样本数目数据集年份高兴厌恶惊讶压抑愤怒其他总计实验方法及实验环境本文采用留一法进行交叉验证（），即将每位受试者的微表情视频依次作为测试集，其余受试者的微表情视频作为训练集。实验使用准确率和值进行识别效果评价。实验在框架下进行，为，显卡为。由于微表情运动时间为（），本文将包括起始帧和峰值帧在内等间隔抽取的张视频帧组成新的视频序列，并进行灰度化处理。由于数据视频包含多余的背景信息，将影响网络训练时间和学习效果，因此使用中的库来检测人脸标志点位置，通过剪裁得到大小为的人脸区域，再利用帧间差分法得到运动肌肉的

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？