1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期摘要:针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提
2、高。关键词:语音情感识别;深度学习;神经网络;多尺度卷积;长短时序网络中图分类号:TP398.1文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.01.011Speech Emotion Recognition of Hybrid Multi-scale ConvolutionCombined with Dual-layer LSTMLIANG Ke-jin,ZHANG Hai-jun,LIU Ya-qing,ZHANG Yu,WANG Yue-yang(College of Computer Science and Technology,Xinjiang No
3、rmal University,Urumqi 830054,China)Abstract:Aiming at the deficiencies of deep learning algorithms in the extraction of speech emotion features and the lowrecognition accuracy,the effective emotion features in the speech data are extracted,and the features are spliced and merged atmultiple scales t
4、o construct speech emotion features and improve the deep learning model s performance.Traditional recurrentneural networks cannot solve the long-term dependence problem of speech emotion recognition.The dual-layer LSTM model isused to improve the effect of speech emotion recognition,and a model comb
5、ining hybrid multi-scale convolution and dual-layerLSTM model is proposed.Experimental results show that under the Chinese Emotion Database(CASIA)of the Institute ofAutomation of the Chinese Academy of Sciences and the Berlin Emotion Open Data Set(Emo-DB),compared with other emotionrecognition model
6、s,the speech emotion recognition model proposed in this article has a great improvement in accuracy.Key words:speech emotion recognition;deep learning;neural network;multi-scale convolution;long and short time seriesnetwork文章编号:1006-2475(2023)01-0063-06混合多尺度卷积结合双层LSTM语音情感识别梁科晋,张海军,刘雅情,张昱,王月阳(新疆师范大学计
7、算机科学技术学院,新疆 乌鲁木齐830054)收稿日期:2021-10-01;修回日期:2022-07-05基金项目:新疆维吾尔自治区创新环境建设专项(人才专项计划天山雪松计划)(2019XS08);国家自然科学基金-新疆联合基金重点项目(U1703261)作者简介:梁科晋(1995),男,山西晋城人,硕士研究生,研究方向:自然语言处理,情感倾向性分析,E-mail:;通信作者:张海军(1973),男,吉林四平人,教授,硕士生导师,博士,研究方向:自然语言处理,情感计算,人工智能,E-mail:;刘雅情(1996),女,辽宁大连人,硕士研究生,研究方向:自然语言处理,E-mail:q;张昱(1
8、995),女,陕西商洛人,硕士研究生,研究方向:自然语言处理,E-mail:;王月阳(1996),男,河北沧州人,硕士研究生,研究方向:自然语言处理,E-mail:。0引言语音在人类的日常交往中扮演着重要的角色,在交往传递的信息中,不仅包含相应的语义信息,而且情感信息也包含其中。随着人工智能的日益兴起,如何让计算机具有和人类一样的思想,可以进行语音情感识别和表达,成为当前的研究热点。对于一套完整的 语 音 情 感 识 别(SpeechEmotionRecognition,SER)1模型来说,可以分为3个模块:语音预处理、特征提取和情感识别,如图 1所示。就当前的研究而言,语音情感识别还需要攻克
9、2个难题2:1)语音的哪些特征适合作为情感特征;2)怎样设计或者改进一种模型结合语音情感特征来提高有效性3。本文基本思路就是从语音情感特征的构造和识别模型改进2个方面展开相关的研究。具体改进工作如下:1)在特征的构造方面,提取语音情感相关的特征(Mel倒谱系数、频谱质心、短时过零率、均方根值能量等)共计312维,相较于传统的单一特征,本文所选取的特征更能反应语音的情感;2)为了提升模型的识别性能,解决传统神经网络特征提取不足造成识别准确率不高的问题,提出了混合多尺度卷积与双层LSTM模型相结合的模型。图1语音情感识别模型语音的输入语音预处理特征提取情感识别计算机与现代化2023年第1期1研究现
10、状在目前的研究中,SER分类主要采用机器学习和深度学习的方法。在早期的SER中大多采用机器学习的方法进行分类,在进行语音情感特征提取参数时,刘明珠等人4加入(Support Vector Machine,SVM)分类器,选择出合适的 SVM 核参数,最终通过建立SVM进行分类建模;王胜5在提取出语音情感特征参数之后,结合隐马尔可夫模型(Hidden Markov Model,HMM)进行建模;叶吉祥等人6构造了一个3层的随机森林网络,解决了情感数据集分布不均匀的问题,同时也提高了识别的准确率;任浩等人7采用 PCA(Principle Component Analysis)进行降维处理之后,联
11、合多级SVM进行建模,最终判断出情感类型。虽然采用机器学习的分类方法在SER方面都有所建树,但是其算法模型相对复杂不容易实现,并且在特征处理时大多依靠人工进行处理,具有人为的主观性,造成模型的识别准确率不高。随着深度学习的发展,传统机器学习的情感识别模型逐步被取代,使用神经网络进行建模,特别是在计算机视觉、图像处理、语音识别等研究领域都得到了广泛应用。吕惠炼等人8利用CNN的特征提取能力,把原始的语音情感信号直接用深度神经网络进行特征提取,添加了双向长短记忆神经网络联系上下文特征信息,同时以端到端的方式进行训练,取得了不错的效果;姜芃旭等人9提出一种基于CNN语音情感识别模型,以Lenet-5
12、模型为基础通过增加网络层数,提取更加深层的语音情感特征,将二维卷积核改为一维卷积核,对特征进行特征变换表征,实现了语音情感的分类。但是这些研究都是通过选择增加网络的层数,从深度方面进行特征的提取来提高模型的有效性的。殊不知网络层越高感受野越大,对于语义的信息表征能力比较强10,但是却削弱了对于几何信息的表征;反之亦是如此,增强几何表征的同时也削弱了语音信息的表征。同时由于语音情感序列的多样性,联系语音情感上下文特征信息的能力不足,无法充分利用特征进行分类,造成识别准确率不高。为弥补传统神经网络随着层数的增加造成提取特征不足的问题,周悦等人11在一个合并卷积神经网络中设计了2个分支,一个是一维(
13、1D)CNN分支,另一个二维(2D)CNN分支,从双分支的模型中提取特征,提高了分类的准确率;张会云等人12提出异构并行的神经网络,一个分支由全连接层和长短记忆神经网络组成,另一个在前一个分支的基础上增加了卷积层,最终进行合并并结合注意力机制,提高了模型的性能。在特征提取方面,影响语音情感的因素有很多,比如语种、说话人的音色以及一些其他的因素,目前还没有哪一种情感可以很好地表征语音情感。近些年来,许多研究者采用特征融合的方式表征语音情感,胡德生等人13采用主辅网络进行特征融合:将时域特征作为主网络的输入,Mel谱图作为辅网络的输入,融合之后提高了识别的性能;王怡等人14融合语音的低层次特征和谱
14、特征,采用构造哈夫曼树的方法进行识别,达到理想的分类效果;Yoon等人15通过提取语音的MFCC和韵律特征,然后融合文本信息,在相应的模型上进行情感识别达到了预期的效果。基于上述研究,为解决深度神经网络提取特征不足的问题,本文提出一种采用混合多尺度卷积结合双层LSTM模型,在特征选取方面,将语音的多种情感特征进行了融合。2混合多尺度卷积结合双层LSTM模型本文所提的混合多尺度卷积结合双层长短期记忆网络模型如图2所示,主要包括3个多尺度卷积组成的混合多尺度和2个长短记忆神经网络以及1个全连接层。图2多尺度卷积结合长短记忆网络模型首先对输入的语音进行预处理,得到相应的语音情感特征,然后将其无差别地
15、输入到拥有3个卷积层采用不同的卷积核C1、C2、C3(C1、C2、C3分别代表3个卷积层不同的卷积核)中,经过BN层和池化层,从而提取不同层次的具有代表性的情感特征。将输出的3个特征结果融合在一起,得到新的特征序列:H=Concat(h1,h2,h3)(1)式(1)中,h1、h2、h3分别代表C1、C2、C3得到的特征向量,Concat()函数代表融合得到的新的特征序列。结果再次作为下一层卷积的输入,如此循环2次,将最终融合得到的语音高层情感特征作为2层LSTM的输入,最后通过一层全连接层,完成语音的情感分类。如此既加强了模型的非线性化的程度,也使得模型具有更加优越的拟合性能,从而提高了识别的
16、准确率。2.1多尺度特征融合方法多尺度卷积多用于图像与视觉方面,是提高分割性能的一种重要手段,很多研究通过多尺度卷积融合图像的低层特征与高层特征提升了检测和分割的性能16。张威等人17采用多路卷积模型和SENet模型相结合的方式,将最后的全连接层加入端到端模型,在语音识别方面取得了不错的效果。本文基于此提出的混合多尺度卷积是CNN的一种,改变了传统的CNN在单分支网络上通过加深卷积层数来提取深层特征的方式。在深度神经网络的基础上通过3个不同的卷积核在同一层进行特征提取,弥补了单个深度神经网络提取特征不足17的问题。具体的操作如图3所示。语音情感特征池化层池化层池化层开心难过害怕生气惊奇池化层池化层池化层BN层BN层BN层卷积层1卷积层2卷积层3卷积层1卷积层2卷积层3Concat1Concat3LSTM1LSTM2642023年第1期图3多尺度卷积示意图图3中的3个卷积层(卷积层1、卷积层2、卷积层3)分别代表3个不同大小的卷积核,本文采用33、55、77的卷积核,经过批处理(BN)层和步长为2的池化层,然后将提取语音的情感特征进行融合,最后进行模型的预训练。特征融合主要有2种方式:一