1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于动态卷积递归神经网络的语音情感识别耿磊1,傅洪亮1,陶华伟1,卢远1,郭歆莹1,赵力2(1.河南工业大学 粮食信息处理与控制教育部重点实验室,郑州 450001;2.东南大学 信息科学与工程学院,南京 210096)摘要:动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别
2、从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在 CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升 1.2516.00、0.712.26及 2.168.10个百分点,验证了所提模型的有效性。关键词:语
3、音情感识别;特征提取;动态特征;注意力机制;神经网络开放科学(资源服务)标志码(OSID):中文引用格式:耿磊,傅洪亮,陶华伟,等.基于动态卷积递归神经网络的语音情感识别 J.计算机工程,2023,49(4):125-130,137.英文引用格式:GENG L,FU H L,TAO H W,et al.Speech emotion recognition based on dynamic convolution recurrent neural network J.Computer Engineering,2023,49(4):125-130,137.Speech Emotion Recogn
4、ition Based on Dynamic Convolution Recurrent Neural NetworkGENG Lei1,FU Hongliang1,TAO Huawei1,LU Yuan1,GUO Xinying1,ZHAO Li2(1.Key Laboratory of Food Information Processing and Control,Ministry of Education,Henan University of Technology,Zhengzhou 450001,China;2.School of Information Science and En
5、gineering,Southeast University,Nanjing 210096,China)【Abstract】Dynamic emotion features are important features in speaker independent speech emotion recognition.However,lack of mining on speech time-frequency information limits the representation ability of existing dynamic emotional features.In this
6、 study,a dynamic convolution recurrent neural network speech emotion recognition model is proposed to better extract the dynamic emotional features in speech.First,based on the dynamic convolution theory,a dynamic convolution neural network is constructed to extract the global dynamic emotional info
7、rmation in the spectrogram,and the attention mechanism is used to strengthen the representation of the key emotional regions in the feature map in time and frequency dimensions,respectively;simultaneously,the Bi-directional Long Short-Term Memory(BiLSTM)network is used to learn the spectrum frame by
8、 frame to extract the dynamic frame level features and the temporal dependence of emotion;finally,the Maximum Density Divergence(MDD)loss is used to align the new individual features with the feature distribution of the training set,and consequently the impact of individual differences on feature di
9、stribution is reduced and the representation ability of the model is improved.The experimental results show that the proposed model achieved 59.50%,88.01%,and 66.90%weighted average accuracies on the three databases(CASIA,Emo-db,and IEMOCAP),respectively.Compared with other mainstream models(HuWSF,C
10、B-SER,RNN-Att,et al),the recognition accuracy of the proposed model in the three databases is improved by 1.25-16.00,0.71-2.26,and 2.16-8.10 percentage points,respectively,which verifies the effectiveness of the proposed model.【Key words】speech emotion recognition;feature extraction;dynamic feature;
11、attention mechanism;neural networkDOI:10.19678/j.issn.1000-3428.0064054基金项目:国家自然科学基金(61901159);河南省高等学校重点科研项目(22A520004,22A510001)。作者简介:耿磊(1998),男,硕士研究生,主研方向为语音情感识别、模式识别、智能系统;傅洪亮,教授、博士;陶华伟(通信作者),讲师、博士;卢远,本科生;郭歆莹,副教授、博士;赵力,教授、博士。收稿日期:2022-02-28 修回日期:2022-05-08 Email:人工智能与模式识别文章编号:1000-3428(2023)04-012
12、5-06 文献标志码:A 中图分类号:TP391.42023年 4月 15日Computer Engineering 计算机工程0概述 语言是人类传达信息最基本、有效的方式之一。语言中蕴含着丰富的情感信息。作为人机交互(Human-Machine Interaction,HMI)领域的关键技术,语音情感识别(Speech Emotion Recognition,SER)技术在智能家居、医学诊断、线上教育、自动电话分类等领域具有广泛的应用前景1-2。特征提取及处理是语音情感识别中最具挑战性的研究方向,由于情感在语音中是连续的,因此如何有效地提取语音中的动态情感特征,成为该研究领域的重要内容。早期
13、语音情感特征提取主要集中在韵律特征、声学特征及谱相关特征,通过计算上述特征的一阶、二阶导数获取动态情感信息,此类研究成果已广泛应用于经典的语音情感识别系统。近年来,随着深度学习技术的兴起,基于数据驱动的语音情感识别系统受到了研究人员的关注。为有效地提取语音中的情感信息,许多经典的神经网络被用于语音情感识别系统。文献 3-4 采用 CNN 网络提取语谱图中的全局情感特征,为保留谱图中的动态情感信息,通过求导将二维语谱图转化为三维语谱图。文献5基于帧级语音特征和注意力长短期记忆(Long Short-Term Memory,LSTM)网络实现语音情感识别,所采用的帧级语音特征及其导数包含了大量的动
14、态情感信息。文献 6 采用基于帧级 Mels谱特征的循环神经网络实现帧级情感特征提取。鉴于上述两种网络自身的表征能力有限,文献 7 提出一种异构并行神经网络语音情感识别模型,模型采用并行分支结构,同时提取语音情感的空间谱特征和时间序列特征。文献 8 提出一种具有多种注意力机制的卷积递归神经网络,该网络结合了具有分支结构的全卷积网络及 LSTM,将多特征作为输入,有效解决了动态情感特征的不完备性问题。在说话人独立特征处理方面,早期的研究主要集中在特征选择和降维中,并取得了许多显著成果。近年研究发现,由于不同个体的发声方式存在区别,特征分布存在较大的差异,严重影响了情感的识别。文献 9 在卷积网络
15、基础上通过对抗性训练将说话人从情绪中分离出来,一定程度削弱了不同说话人的个体差异性。文献 10 使用一种领域自适应表示学习方法对不同说话人特征进行对齐。然而,这两种方法均是基于全局域情感特征进行迁移的,忽略了不同情感间的特征差异,不利于最终的情感分类。本文提出一种基于动态卷积递归神经网络的语音情感识别模型。由动态卷积理论11构建动态卷积神经网络,对不同输入谱图动态调整卷积核权重,实现对语谱图全局动态情感特征的深度提取;同时基于时频注意力机制,对动态卷积网络的输出特征图从时间和频率两个维度同时感知情感信息变化,实现对特征图关键区域的强调表示;为弥补卷积网络对谱图中帧级动态信息提取不足的缺陷,并行
16、设置双向LSTM(BiLSTM)网络对谱图进行逐帧学习,实现帧级情感信息的补充;最后利用最大密度散度(Maximum Density Divergence,MDD)损失12实现不同个体情感子域特征对齐,消除个体差异造成的负面影响。1动态卷积递归神经网络模型 1.1模型框架本文模型结构如图1所示。首先计算语音的Mels谱系数,然后设计Dycnn和BiLSTM并行网络,分别提取全局谱图特征及帧级谱数据动态情感信息,最后采用 MDD损失实现不同说话人特征迁移对齐。1.2输入特征提取由于 Mels谱图能很好地描述语音中情感信息的时频相关性,因此其谱图特征已成为语音信号处理领域的热门特征。本文针对每一条语音信号,采用64组梅尔滤波器、25 ms的汉明窗以及10 ms的重叠时间来获取 Mels谱图。Mels标度转换公式如式(1)所示:fout=2 595 lg(1+fin700)(1)其中:fin是输入频率;fout是梅尔刻度频率。在获得二维静态的Mels谱后,通过在时间轴上计算谱图的一阶导数和二阶导数,得到三通道谱图特征。为适应模型对输入数据的需要,本文使用双线性插值法将谱图及其一阶导和二阶导大