基于多尺度融合特征网络的表情识别研究.pdf

资源描述

1、第卷第期重庆科技学院学报(自然科学版)年月基于多尺度融合特征网络的表情识别研究郭帅龙杨波张家旗杨鑫马海娟(重庆科技学院电气工程学院重庆)收稿日期:基金项目:重庆市科技局自然科学基金项目“基于注意力机制和深度学习模型的手指静脉活体检测研究”()作者简介:郭帅龙()男在读硕士研究生研究方向为图像处理、深度学习通信作者:杨波()男博士教授研究方向为模式识别与智能系统、光谱分析技术与色彩测量、机器视觉与图像处理摘要:在人脸表情识别任务中场景和表情数据丰富且复杂的情况下卷积神经网络难以提取具有代表性的表情特征因此提出一种多尺度融合特征网络首先在卷积神经网络前端引入具有不同大

2、小卷积块的结构既增强了网络模型提取表情图片局部特征的能力又减少了网络模型的训练参数量然后利用热力权重可视化技术绘制热力权重分布图通过卷积块构建融合特征使其同时兼具浅层局部特征和深层语义特征最后将结构和结构引入改进网络结构中以防止模型出现过拟合或欠拟合问题在公开数据集和融合数据集(、和)上进行实验结果表明该方法的识别准确率更高、泛化能力更强关键词:融合特征卷积神经网络表情识别中图分类号:.文献标识码:文章编号:()前言无论在人类交流还是人机交互的过程中情感信息往往需通过面部表情来体现有研究证明日常交流中只有的信息通过语言传递而高达的信息通过表情传递生气、讨厌、开心、伤心

3、、害怕、惊讶和中立是人类最常见的种表情随着计算机技术的高速发展人脸表情识别技术在公共安全、教育心理学和卫生医疗等领域有着广阔的应用前景人脸表情识别技术是目前的研究热点之一由于人脸表情存在较多的特征信息且人为定义的表情特征缺乏解释性因此选取卷积神经网络进行表情识别等人构建了一个包含层网络的并在最后一层连接层采用分类器将表情分为类使模型在.数据集上的识别率达到了等人在训练之前对数据进行预处理使模型在数据集上的识别率达到了且训练时间更短等人通过训练模型应用损失函数调参使用数据增强方法使识别率提高了等人利用不同尺度、不同方向的小波来提取人脸表情的幅值特性图和频率特性

4、图并将其送入双通道进行训练相较于直接训练人脸表情的模型该模型在准确率和实时性上都有较大的提升吕鹏等人针对稠密网络可能会导致特征冗余和内存负担等问题利用算法提取图像梯度方向的纹理信息将其与稠密网络进行特征融合并在和数据集上进行验证准确率分别达到了.和.曾曦等人在卷积神经网络框架下利用郭帅龙等:基于多尺度融合特征网络的表情识别研究聚类算法得出性别约束下的人脸表情类间关系构建主干网络和通道注意力机制的分支网络并在、和数据集上进行验证准确率分别达到了.、.和.卷积神经网络在大赛中将错误率降至.增加了网络深度提升了网络性能人脸表情识别技术可将该网络作为基准模型但现有的人脸表情数据集

5、仍存在数据量不足和种类不均衡等问题且模型的特征提取结构比较单一容易造成欠拟合或者过拟合的问题因此为了进一步提升人脸表情识别模型的性能本次研究引入结构来获得更多不同尺度的局部表情特征信息并加入结构和结构以防止出现过拟合问题利用技术绘制热力权重分布图将具有较强局部表情特征信息提取能力的层输出与具有深层语义信息的层输出进行特征拼接以提升网络的分类能力数据集选取和预处理.数据集选取本次研究选取、和等个开源数据集融合、数据集的所有数据和数据集的部分数据作为训练样本和测试样本并对数据集中的人脸图像进行预处理数据集包括个人的个图像序列其中带标签的图像序列个包括愤怒、厌恶

6、、恐惧、高兴、蔑视、悲伤和惊讶等种基本表情数据集的表情示例如图所示图数据集的表情示例数据集共有张图片由名日本女性的人脸表情组成包括愤怒、厌恶、恐惧、高兴、中立、悲伤和惊讶等种基本表情数据集的表情示例如图所示图数据集的表情示例数据集由位于荷兰奈梅亨的拉德伯德大学奈梅亨行为科学研究所发起采集对象包括白种人的成年男性、女性和孩子其中有部分是摩洛哥的荷兰男性该数据集图像包括愤怒、厌恶、恐惧、高兴、中立、悲伤、惊讶和蔑视等种基本表情数据集的表情示例如图所示图数据集的表情示例郭帅龙等:基于多尺度融合特征网络的表情识别研究中有大量从现实生活场景中采集的表情数据包括各种年龄

7、、姿态和肤色的人脸表情以及漫画人物表情和表情包等其中共有张人脸表情图片包括愤怒、厌恶、恐惧、高兴、中立、悲伤和惊讶等种基本表情部分示例如图所示图数据集的表情示例.数据预处理由于、和数据集的图片背景信息比较复杂因此采取中库的功能调用函数接口以实现人脸表情检测对原始表情图片进行裁剪将图片大小统一调整为如图所示图裁剪效果图为了方便网络训练将所有图片转化为灰度图并利用直方图均衡化方法对图片进行光照均衡化处理如图所示经过增强处理后图片中与表情相关的脸部区域更加明显图光照均衡化效果图多尺度融合的卷积神经网络模型.结构由于人脸表情数据丰富且复杂只通过单一尺度卷积层的堆叠达

8、不到较好的提取效果因此引入结构来提取人脸表情特征结构旨在减少卷积层堆叠避免冗余计算保证模型准确率结构先后历经了、等多个版本的发展本次研究采用的是结构如图所示图结构图首先结构将上一层网络的输出经过卷积操作分配给的卷积层由个的卷积层代替原始结构中的卷积层和的最大池化层然后并行地执行不同的卷积运算最后通过拼接操作形成个包含不同尺度的特征图这样就能提取更丰富的特征信息使网络获得不同尺度的感受野降低主干网络中因简单卷积层的重复堆叠所造成的庞大计算代价.深浅层融合特征是由等人于年提出的一种深层网络模型其基本单元为密集连接块的核心思想是每个密集连接块的输入都是前几个密

9、集连接块的输出能够实现特征通道上每个密集连接块的特征重用提取的特征图包括浅层特征和深层特征等个部分郭帅龙等:基于多尺度融合特征网络的表情识别研究通过技术绘制网络的热力权重分布图对块输出进行拼接如图所示图网络的热力权重分布图网络中、提取的面部特征具有较好的局部表情信息其权重主要分布在与表情相关性较强的区域如眉毛、嘴巴等部位提取的面部特征具有较好的全局语义信息其权重主要分布在面部表情区域且呈现一种向内收敛的形态为了使特征图同时包括浅层局部特征和深层语义特征用、和的输出构建融合特征并通过卷积来改变不同输出的特征通道数以实现特征拼接特征融合结构示意图如图所示图特征融合结

10、构示意图.与在改进的网络结构中添加批量归一化()与以提高网络的泛化性能防止模型出现过拟合或欠拟合问题是团队于年提出的一种卷积神经网络训练优化方法网络训练过程中以为最小单位不断迭代由于每次的有差异因此通过滑动平均来计算均值与方差对于输入的部分数据 ()引入学习参数、则输出为 ()在前向传导过程中有:()()()()()()式中:表示样本均值表示第个输入数据表示归一化后的值表示样本大小表示样本方差表示误差表示第个输出数据每个神经元都包含对、参数可使网络恢复出原始网络所要学习的特征分布训练完成后在推断阶段利用、样本均值与样本方差计算层的输出是由等人于

11、年提出的一种正则化方法的核心思想是:在深度学习的训练过程中对于神经网络单元首先利用概率为的伯努利分布函数随机生成与节点数相同的、值然后将这些值与输入值相乘其中与相乘的节点被保留、与相乘的节点被屏蔽最后对这些节点值进行计算的具体公式如式()式()所示:()()()()()()式中:表示第层第个神经节点的丢弃概率设定值表示处理后的第层输出值表示第层的丢弃设定值表示原来的第层输出值表示第层第个神经节点的权重输出值表示第层第个神经节点的权重值表示第层第个神经节点的偏置值表示第层第个神经节点的激活函数输出值每一轮训练都会根据丢弃概率随机丢弃部分神经元不同的网络产生不同

12、的过拟合这样就可以减少过拟合的发生减弱神经元之间的相互作用.多尺度融合网络模型根据以上方法本次研究提出一种多尺度融合特征网络的表情识别方法其网络结构如图所示首先对图片进行预处理将图片裁剪成大小为的灰度图然后将预处理后的图片输入多尺度融合特征网络中进行特征提取最后进行分类通过含有不同尺度卷积层的结构获得不同感受野下的局部细节特征将、和的输出作为最终的融合表情特征图网络参数说明如表所示郭帅龙等:基于多尺度融合特征网络的表情识别研究图多尺度融合特征网络结构表网络参数说明序号网络层类型尺寸步长重复次数输出尺寸卷积层分支卷积层最大池化层卷积层分支卷积层最大池化

13、层卷积层卷积层最大池化层卷积层拼接层最大池化层全连接层卷积层全局平均池化层全连接层实验结果分析本次实验采用的操作系统为专业版实验环境为 .深度学习框架为.硬件平台为 ()()内存为为的为了验证模型对不同数据集的适应性分别在数据集和包含、与的融合数据集上进行训练在数据集上进行轮次的迭代训练优化器为初始学习率为.、动量为.、为训练集、验证集和测试集的比例为在测试集上验证模型性能得到的混淆矩阵如图所示图识别结果的混淆矩阵由混淆矩阵可以看出本模型对高兴、中立和惊讶的识别效果较好对恐惧和愤怒的识别效果较差因为恐惧和愤怒都有眉头紧锁、嘴巴向下弯曲等相似特征

14、且都属于消极情绪因此其在面部表情上的差异比较细微另外样本数量不均衡如高兴和恐惧的样本数量相差个左右这也是本模型识别效果不佳的原因之一将本方法与其他方法进行对比分析结果如表所示实验发现本方法比其他方法的识别准确率更高表不同方法在数据集上的识别准确率方法识别准确率文献方法.文献方法.文献方法.文献方法.本方法.融合数据集中共有张图片、类表情标签由于融合数据集中的图片数量比数据集少因此将融合数据集按照的比例分为训练集和测试集在训练集上采用十折交叉验证法进行训练融合数据集的训练参数设置与数郭帅龙等:基于多尺度融合特征网络的表情识别研究据集相同融合数据集识别结果的混淆矩阵如图所

15、示图融合数据集识别结果的混淆矩阵由图可以看出本模型能够很好地进行表情分类识别错误的图片主要为悲伤和中立这是因为部分图片之间存在嘴角下弯、眉毛平平等相似表情特征另外数据集的样本数量比其他个数据集少因此模型对数据集的识别效果较差将本方法与其他方法在不同数据集上进行对比分析结果如表所示实验发现本方法在和数据集上比其他方法的识别准确率更高表不同方法在不同数据集上的识别准确率方法识别准确率文献方法.文献方法.文献方法.文献方法.文献方法.文献方法.本方法.为了进一步验证本方法的有效性选取准确率作为评价指标进行消融实验步骤如下:)以网络为原始模型将原始模块记为)引入结构记为

16、)引入模块改变网络的部分记为 )引入深浅层融合特征对网络的、和的输出进行融合拼接记为 )多尺度融合特征网络模型包含以上各个部分记为 ()训练过程曲线如图所示消融实验结果如表所示图训练过程曲线由消融实验结果可知引入模块减少了模型参数量提升了网络学习速度提高了模型在数据集上的准确率引入结构在网络前端拆分特征提取通道减少了模型参数量提高了准确率引入融合特征模块降低了准确率因此为了验证融合特征分支的作用开展融合特征可视化实验利用可视化技术输出融合特征模型和模型的浅层、深层及郭帅龙等:基于多尺度融合特征网络的表情识别研究融合特征图即和的特征输出不同模型的特征输出对比如图所示表消融实验结果模型参数量准确率 .图不同模型的特征输出对比在输出层模型和模型的浅层特征提取模块基本都能提取到面部的轮廓信息但引入了结构的模型能够较好地剔除面部的干扰像素点在输出层模型提取的面部特征不均匀局部偏差较大分类精度不高模型提取的面部特征凸显了与表情高度相关的区域(如嘴巴、眉毛和眼睛等)加大了表情区域与非表情区域的差值更容易计算出最终的分类结果进而提高模型的分类

展开阅读全文