1、 年 月 陕西理工大学学报(自然科学版).第 卷第 期 ().引用格式:黄喜阳杜庆治龙华等.基于 特征融合的语音情感识别算法.陕西理工大学学报(自然科学版)():.基于 特征融合的语音情感识别算法黄喜阳 杜庆治 龙 华 邵玉斌昆明理工大学 信息工程与自动化学院 云南 昆明 摘 要:在目前语音情感识别中采用单一梅尔倒谱系数()频谱的方法不能完全体现语音中所包含的情感特性而多特征融合容易导致维数过大 提出了一种融合 及其差分频谱的双向长短时记忆网络结合卷积神经网络()的语音情感识别算法 首先提取语音信号的 特征并进行差分运算得到一阶、二阶差分特征提取频谱再采用主成分分析法分别获取 个频谱中贡献度较
2、高的维度组成新的频谱达到降维目的并将降维后的 个特征频谱从上到下依次进行堆叠得到动、静结合的 差分融合频谱 训练阶段 模型从特征融合频谱中学习语音情感特性并采用稀疏交叉熵法得到最优结果实验结果表明在 数据集上准确率为.在 数据集上对情感识别的准确率为.比主流情感识别模型的准确率提高了.关键词:语音情感识别主成分分析法双向长短时记忆网络 差分融合频谱深度学习中图分类号:.文献标识码:文章编号:()收稿日期:修回日期:基金项目:云南省媒体融合重点实验室开放项目()通信作者:杜庆治()男云南楚雄人高级实验师主要研究方向为通信工程、信息系统、网络安全情感信息在语音信号中也是一种很重要的信息资源对于说话
3、人情感的分析有很重要的研究意义通常语音情感分为七大类分别是生气()、害怕()、无聊()、厌恶()、高兴()、中性()、悲伤()当相同内容的话说话人当时情感的不同则会表现出不同的形式使得听者在感知上就会存在很大的差异以至于产生歧义甚至是误会 语音情感识别技术()是一种自动检测说话人情感状态的技术对于分析和处理语音信号中的情感特征有着很重要的作用对于语音情感的模型目前国内外学者普遍采用基本情感、情感二维空间、情感论三种分类方式 对于情感特征而言通常采用线性预测倒谱系数()、梅尔频率倒谱系数()及其差分倒谱系数等参数 而一阶 是对 特征的时间差分通过计算相邻帧之间的差异可以捕捉到语音信号的动态特性且
4、能够提供有关语音信号的速度和变化趋势的信息 在语音情感识别中一阶差分可以帮助检测情感状态的瞬时变化如情感的转折或强度的变化 二阶 在保留 特征的基础上能够更好地区分不同的语音情感提高情感识别的准确率同时二阶 在特征提取时考虑了时序差分可以提供更细致的情感变化信息有助于区分不同情感状态之间的微妙差异 对于语音情感识别方法而言目前主要采用 方式其中双向长短期记忆网络()和卷积神经网络()对情感特征都有着良好的提取作用 等采用 静态特征频谱结合长短期记忆网络()对语音情感进行识别由于只采用静态 特征仅仅捕捉了语音信号的频率特征 罗相林等采用 及其一阶差分特征并通过数据归一化进行预处理再使用十折交叉验
5、证法选择最优支持向量机模型()对语音情感信息进行识别并未考虑二阶 对语音信号中的时序信息且采用直接拼接法进行特征融合基于上述本文在 基础上进行差分运算求出一阶和二阶频谱特征采用主成分分析法()分析、一阶、二阶特征频谱中不同维度的贡献度并分别去掉贡献度较低维数后将贡献度较高的维数进行融合得到融合特征频谱再将融合后的频谱作为特征输入减少冗余信息提高计算效率由于不同的特征维度具有不同的信息表达能力融合后可以充分利用它们之间的互补性以增强特征的表征能力 最后将融合频谱特征通过标准化后采用 神经网络对语音情感进行识别 频谱特征融合模型目前主流方法均采用 或一阶差分 特征频谱作为输入由于直接拼接融合造成维
6、度过大训练时间较长且准确率不理想问题 在本实验中采用静态 及其一、二阶差分 的融合频谱作为输入一阶差分 是离散函数中连续相邻两项之差其物理意义在语音中表现的是当前语音帧与前一帧之间的关系体现相邻两帧信号之间的相互关系在频谱图上表现出来的是能量的变化 二阶差分表示的是一阶差分与一阶差分之间动态的关系即一阶差分与一阶差分之间的关系体现到语音信号帧上是相邻三帧信号之间的动态关系在频谱图上表现出的是一阶 变化加速度大小 由于标准的梅尔频率倒谱参数只反映了语音参数的静态特性和单帧的功率谱包络线但在语音情感识别中语音情感特征更多的表现在能量的变化以及相邻语音帧之间的关系因此静态 不能完全体现语音中包含的情
7、感特性而 随着时间变化的轨迹能反映语音情感的实质特性即语音的特性可以利用静态特征的差分谱来描述并采用 法将各个频谱中贡献度较高的维数组合成新的频谱动、静态特征频谱结合作为输入可以提高系统的识别性能且减少时间的开销其差分 频谱融合特征模型如图 所示图 差分融合频谱模型.特征提取对于深度学习的语音情感识别技术()首先是对语音进行预处理得到语音中最重要的频谱图频谱图中包含了语音的大量关键信息 目前在语音情感识别中使用的频谱特征一般有线性预测系数、线性预测倒谱系数、梅尔倒谱系数等 当语音信号通过运算成倒谱系数后这些倒谱系数就能够被相应特性的机器学习算法学习进而利用这些特性辨别出说话人的情感特征 梅尔频
8、率倒谱系数是利用基于人耳听觉特性提出来的梅尔感知频率与 频率成非线性对应关系从而得到的 频谱特征以 为单位的感知频率 与以 为单位的实际频率 的转化关系如 (/)()主要用于语音数据特征提取和降低运算维度对于语音中的相关特性提取有很好的作用.一阶和二阶 特征提取一阶和二阶差分特征提取过程如图 所示)分帧:在特征频谱提取过程之前将语音数据分帧为帧长为 、帧移为 的一小段数据以此保证进行语音信号的平稳性)加窗:加窗主要目的是增强分帧后每一帧信号中间部分的强度削弱端点处不连续性本实验使 陕西理工大学学报(自然科学版)第 卷图 差分特征提取流程用汉明窗()汉明窗公式为().()式中 为窗口长度)快速傅
9、里叶变换():快速傅里叶变换能将时域信号转化为频域信号能生动地展现信号强度和频率的关系有利于获取语音信号中情感的特性快速傅里叶变换公式为()()()()式中()为输入语音信号()为汉明窗函数 是傅里叶变化的点数()为输入语音信号的频域表达式)梅尔滤波组():通过快速傅里叶变换得到语音声谱由于人耳对低频部分听觉不敏感因此再通过模拟人耳听力特点设计出的梅尔滤波组可增强三角波区域中间信号削弱两边信号因此能对信号进一步提取特征本实验设置滤波器个数 为 个三角波中心频率为()其梅尔滤波组函数()为 ()()()()()()()()式中()频谱能量:为了更好使梅尔特征频谱输出具有更好的抗干扰作用每帧谱线能
10、量()与梅尔滤波组函数()相乘取对数得到对数能量()即()()()()()()()()()取值:.由全连接层学习卷积层输出的特征提取出语音特征并利用该特性识别出语音情感 由于情感主要分为七类分别是生气、害怕、无聊、厌恶、高兴、中性、悲伤因此在判断情感类别时假设一条语音信号对应的差分融合梅尔倒谱矩阵为 情感识别模型表示为()经过网络模型后的()输出 个值、个值分别对应七类不同的情感由于网络输出层采用 激活函数可对输出值进行归一化操作使得输出值转化为概率值并且概率值之和为 第 期 黄喜阳杜庆治龙华等 基于 特征融合的语音情感识别算法 激活函数公式为()()/()()式中为第 个节点的输出值 为总输
11、出节点的个数即分类的类别个数.系统测试本实验语音情感分类的输出层有七类情感通过 激活函数之会将每种情感预测概率归一化到系统预测判定最大概率值为真实情感标签因此理想情况下 时系统判断输入的语音中所包含的情感是生气 对测试集中的语音情感进行识别通过计算其混淆矩阵获得各类情感正确预测样本的数量再除以每一类情感的总样本数量得到各类情感识别的准确率(表)表 七类情感识别测试准确率情感类别预测准确率生气.害怕.无聊.厌恶.高兴.中性.悲伤.表 中对角线上的黑体元素代表分类器在每个类别上的正确预测的准确率而对角线之外的其他元素表示分类器将样本错误地预测为其他类别的准确率由表 可知在测试集中各类情感识别的准确
12、率均大于 且错误地预测为其他类别的概率较小因此本算法具有较好的情感识别准确率 数据预处理与网络优化.对数据标准化由于本文中采用的是 差分融合频谱提取出的特征在数量级方面相差很大且初始频谱特征较多特征数量较多可能导致维度灾难且单位不统一如果使用原始数据就会突出数值较高的指标在分析中的作用相对弱化数值较低指标的作用 因此需要将差分融合频谱进行标准化处理以提高学习效率节约模型训练时间提高识别准确率 本文采用 方法对梅尔特征频谱及其差分频谱特征进行标准化处理沿任意轴标准化融合频谱特征 以均值为中心按分量比例缩放至单位方差因此经过处理后的融合频谱矩阵均值为 标准差为 其转化公式为()/()其中 为原始数
13、据的均值 为原始数据的标准差为标准化后输出值 对于 融合频谱序列进行标准化输出融合频谱结果 的均值为 方差为.稀疏交叉熵代价函数交叉熵一般用于多分类任务中是用来评估两个样本分布之间的距离本文使用交叉熵来评估当前训练得到的概率分布与真实概率分布的差异情况也就是使用交叉熵损失函数表达的是实际输出概率与期望输出概率的距离因此交叉熵的值越小表明两个概率分布就越接近预测值越接近真实值稀疏交叉熵代价函数公式为 ()()()其中 表示拟合程度 为训练的总数为网络的预测值为网络的目标值在语音情感中包含了七种情感由于数据标签没有转化为独立编码格式因此本文采用 与稀疏交叉熵代价函数结合使得神经网络能在误差中快速学
14、习使得权值的调整和网络的训练速度越 陕西理工大学学报(自然科学版)第 卷快进而对网络不断优化达到最优的路径 评价指标与实验结果本研究采用 数据集和 数据库 数据库下载网址为:/./由德国柏林技术大学通信科学研究所创建 包括十名专业发音人其中五男五女总共包含 条话语音频 包含 种情绪:生气、害怕、无聊、悲伤、高兴、中性、悲伤 采样频率为 每个样本长度平均约为 在处理器 显卡 硬件基础上本研究每次实验采用数据集的四分之三作为训练实验选取其中四分之一作为测试实验总共设置四种不同算法实验分为、组其中 组为本文实验算法四组不同算法实验均在 数据集下进行实验且每组算法实验中 网络和 网络结构相同 组实验设
15、置为、组为 以及 组基于直接拼接的 及其差分融合频谱结合、组基于贡献度的 及其差分融合频谱结合 四组实验、组实验主要验证 神经网络的有效性、两组主要验证基于贡献度的融合方式的有效性得出实验结果并对基于 相关文献识别结果进行对照比较.评价指标在本实验中由于情感识别属于分类模型因此评估性能指标包括准确率()、召回率()、精准率()在评价指标公式中数学符号代表含义如下:为模型预测与标注相同都为正标签 为模型预测与标注相同都为负标签 为模型预测不正确与正标注相反为模型预测不正确与负标签相反.召回率召回率是针对所有情感样本而言的其含义是实际为本类情感中被预测为本类的情感样本所占实际为本类情感样本的比例
16、高的召回率意味着可能会有更多的误检但是会尽力找到每一个应该被找到的情感特征其公式为 ().准确率准确率从某种意义上能判断一个分类器是否有效但并不总是能有效的评价一个分类器的工作但是准确率是分类问题中最简单也是最直观的评价指标其含义是分类正确的样本数占总样本个数的比例在数据均衡的情况下有很好的效果在 数据集下其中各类情感数据量比较均匀因此准确率是一个可靠的评价指标其公式为 ().精准率精准率的含义是模型预测为正的样本中实际也为正样本占被预测为正的样本的比例精准率代表对正样本结果中的预测准确程度准确率则代表整体的预测准确程度包括正样本和负样本在分类任务中也是很好的模型评判标准其公式为 ().实验结
17、果分析本文通过上述四组算法进行实验对每组算法实验进行 次测试取训练评价指标中准确率作为模型的评估准则其四组算法实验的准确率如图()所示 组实验结果放大尺寸如图()所示通过多次实验得出性能评估指标的平均值以及准确率的最大值见表 由表可见 作为语音特征频谱输入采用 的 模型比采用 的 模型准确率高出.但准确率不理想 而 组实验基于贡献度的融合方式减少无关特征的同时降低了维数并采用 模第 期 黄喜阳杜庆治龙华等 基于 特征融合的语音情感识别算法 ()组实验准确率 ()组放大图图 实验结果型进行 次实验时该模型比 组模型识别准确率高出.且准确率达到.由此可见在模型相同的情况下基于贡献度的 差分融合频谱
18、图作为输入准确率也有很好的效果 表 性能评估指标值 组别 最大值.表 实验时时间对比组别训练集耗时/测试集耗时/组.本文.在相同硬件条件下在 数据上采用本文采用基于贡献度的特征融合方式与 组直接拼接方式在相同神经网络模型下训练耗时见表 由表、表 可见在相同的神经网络模型上本文采用基于贡献度的特征融合方式比直接拼接法的融合方式耗时更短且准确率更高 与其他实验的比较分析在传统学习中对语音识别主要采用融合高斯模型、支持向量机和隐马尔可夫模型随着深度学习在人工智能行业崛起对于语音情感识别的研究也进入热潮 对于 数据集下目前主流的语音情感识别主要采用 或 特征结合深度学习的方法其中包括、由于文献使用 作
19、为输入特征频谱因此识别准确率高于本实验也在情理之中为了更好体现本实验的优越性实验对照结果见表 表 实验结果对比模型特征准确率/数据来源.文献.文献.文献.文献.本文 结论本文通过基于 和对一、二阶差分频谱特征输入的融合综合贡献度的特征融合方式的测试减少了维度有效提高了语音情感特征 再结合深度学习实验结果表明 模型有着良好的识别率在 数据集上准确率为.在 数据集上对情感识别的准确率为.综合取得了良好的语音情感识别效果 参 考 文 献 张会云黄鹤鸣李伟等.语音情感识别研究综述.计算机仿真():.韩文静李海峰阮华斌等.语音情感识别研究进展综述.软件学报():.陕西理工大学学报(自然科学版)第 卷 .
20、:.:():.罗相林秦雪佩贾年.基于 及其一阶差分特征的语音情感识别研究.现代计算机(专业版)():.李强刘晓峰贺静.基于语音特征的情感分类.小型微型计算机系统():.童琪琪.防合成语音攻击的声纹识别技术研究.上海:上海师范大学.王玺闫超武曲等.基于 分类的语音情感识别研究.科学技术创新():.:.朱丽杨青吴涛等.基于 和 的脑电波情感分析.应用科学学报():.:.:():.:.陶砚蕴岳国旗王凯欣等.心电图信号双任务学习的时空级联神经网络及心律失常分类模型.南京大学学报(自然科学版)():.张钰莎蒋盛益.基于 特征提取和改进 的语音情感数据挖掘分类识别方法研究.计算机应用与软件():.():.:.责任编辑:张存凤 :.().:第 期 黄喜阳杜庆治龙华等 基于 特征融合的语音情感识别算法