基于卷积神经网络的火车站语音情感识别方法

资源描述

1、基金项目:国家自然科学基金(61972016);国家重点研发计划项目(2020YFF0304100);中国博士后科学基金(2021M692400);江苏省自然科学基金(BK20201479);中国铁道科学研究院集团有限公司重点项目(2021YJ183)收稿日期:20210225修回日期:20210307第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02017704基于卷积神经网络的火车站语音情感识别方法彭凯贝1，孙小明2，陈皓炜2，王建荣2，3(1 中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081;2 山西大学数学科学学院，山西太

2、原 030006;3 天津大学智能与计算学部，天津 300072)摘要:近年来，卷积神经网络在图像、文本、语音分类等领域广泛使用，但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题，提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征，然后把提取的特征矩阵送到卷积神经网络训练，最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置，认为每一条语音属于某类别的概率大于 90%则是可信的，否则不可信。实验结果表明，与循环神经网络(NN)和多层感知器(MLP)相比，上述模型准确率更高。所提出的方法为深度学习技术在

3、语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。关键词:深度学习;语音情感识别;卷积神经网络;梅尔频率倒谱系数中图分类号:TP391.9文献标识码:Bailway Station Speech Emotion ecognitionBased on Convolutional Neural NetworkPENG Kaibei1，SUN Xiaoming2，CHEN Haowei2，WANG Jianrong2，3(1 Institute of Computing Technology，China Academy of ailway Sciences Corporation L

4、imited，Beijing100190，China;2 School of Mathematical Sciences，Shanxi University，Taiyuan Shanxi030006，China;3 College of Intelligence and Computing，Tianjin University，Tianjin 300072，China)ABSTACT:In recent years，convolutional neural networks have been widely used in image，text，speech classifi-cation a

5、nd other fields，but most of the existing researches ignores the performance of speech emotion recognition inspecific places To solve this problem，this paper proposes a speech emotion recognition model based onConvolutional Neural Network(CNN)The model first extracts the Mel Cepstral Coefficient(MFCC

6、)feature of eachspeech，and then sends the extracted feature matrix to the convolution the neural network for is traineding，and finallyoutputs the category of each voice is output byfrom the network In addition，a confidence setting is added to the out-put layer of the model，and it is believed that th

7、e probability of each voice belonging to a certain category is greaterthan 90%Experimental results show that the model has a higher accuracy rate compared with ecurrent Neural Net-work(NN)and Multilayer Perceptron(MLP)The method proposed in this paper provides a certain reference forthe application

8、of deep learning technology in speech emotion recognition and early warning of dangerous situations inrailway stations and other placesKEYWODS:Deep learning;Emotion recognition;Convolutional neural network;Mel frequency cepstrum coefficient7711引言语音情感识别在人类与机器的交互中发挥着重要的作用，近年来在智能汽车、在线呼叫以及医疗紧急事故处理等多个领域应

9、用1。语音情感识别主要是从人的情感语音中提取出不同情感的相关特征，然后根据提取的特征辨别出不同的情感并进行分类。语音情感识别中常用到的智能算法有:神经网络、支持向量机和贝叶斯网络等2。随着人工智能的发展，深度学习在情感识别中的应用越来越广。Kim 首次将 CNN 用于文本情感分类，经过实验得出 CNN 要优于其它传统的机器学习算法3。赵小蕾等人将人工统计的特征与深度学习提取的特征输入到支持向量机中进行识别，该方法得到了较高的识别率4。吴俊清等人将 CNN 和 GU 结合对小数据集语音进行情感识别，该方法比传统的情感识别方法更有竞争力5。高帆等人使用深度受限玻尔兹曼机融合语音的情感特征，使用长短

10、期记忆网络(LSTM)识别语音情感，在多情感分类方面有着较好的性能6。余莉萍等人将LSTM 中的输入门和遗忘门改为注意力门来识别儿童语音情感，实验表明该改进算法的儿童语音情感识别识别率高于LSTM7。以上方法仅考虑了语音识别在某些公共数据集中的性能，而忽视了实际应用中数据集随机性强，规律性差的缺点。在火车站等人群密集场所中安全是不可忽视的因素之一，当发生危险时快速可靠的应急处理有利于将损害降至最低，因此本文将情感识别技术应用于火车站中，通过识别乘客的正负面情绪，为危险情况的预警提供一定的帮助。针对此应用场景，本文首先提取语音的 MFCC 特征，然后把提取的特征送到 CNN 中，最后输出每个语音

11、的所属类别。仿真结果表明与其它深度学习算法相比本文所提出的方法有着更高的准确率。2语音情感识别深度学习的快速发展推动了语音情感识别技术成熟。深度学习技术可以寻找到变量间复杂的非线性关系8，在语音情感识别中，将每一条语音赋予一个标签，通过深度学习技术提取每一条语音的特征，使得每一条语音的特征与其标签一一对应，进而得到每一条语音所属的标签，并最终完成语音情感识别的任务。2.1语音预处理本次实验需要将愤怒、恐惧、高兴、中性、悲伤、惊奇六种语音数据分为两类。愤怒、恐惧、悲伤为负面语音情绪数据，中性、高兴、惊奇为正面情绪。因此累计获取了由铁科院采集的分别代表愤怒、恐惧、高兴、中性、悲伤、和惊奇六种情感的

12、 4797 条语音，这些语音由多名不同性别的人员录制。对语音数据集的研究发现，该数据集中的大多数语音都有着不同程度的缺陷，例如:有些语音中存在空音，有些语音的音量过大，有些语音的音量过小，此外，每条语音的质量也各有不同。为此首先对数据集中的每一条语音做了预处理。在预处理过程中，首先仔细去除了每一条语音中的空音，使每一条语音都仅包含有用的特征，而不包含无用的特征，接着统一了每一条语音的音量，使每一条语音的音量都在同一范围内，最后对每一条语音的质量做了提升，使数据集中的每一条语音都只包含高质量的语音特征。这些预处理工作为后续的语音情感识别做了准备，有利于语音的特征提取并且利于模型分类。该模型属于深

13、度学习中的监督学习类型，因此，将预处理后的每一条语音数据都做了标签标样处理，使得最终的训练数据集标签化，即每一条语音都带有各自的标签，例如第一条语音带有“高兴”的标签。2.2语音特征提取所提取的语音信息为人的声音信息，而在人声音信息的特征提取中，梅尔频率倒谱系数(MFCC)是最合适的一种9，因此本文采用梅尔频率倒谱系数进行语音特征的提取。经过梅尔频率倒谱系数特征提取后，数据集中的每条语音都提取了 259 维的特征。将提取到的特征矩阵中的缺省值做了补充处理，以保持特征矩阵的完整性。接着打乱特征矩阵的顺序，以降低数据间的顺序关联，进而增强模型的训练效果。提取、补充并打乱顺序后的部分特征矩阵如图 1

14、所示。图 1提取并处理后的部分特征矩阵最后将提取并处理后的特征矩阵按 8:1:1 划分为拆分成训练数据集，用于模型的训练、检验数据集，主要用于模型的效果检验与测试数据集，用于模型结果测试。2.3训练该任务维分类任务，并且语音特征分布有明确的层级关系，因此，本文采用卷积神经网络对模型进行训练10。本文所开发的网络结构如图 2 所示。如图 2 所示，图中的卷积运算代表分级提取语音特征，最大池化运算则是去掉前一层特征中的冗余信息，同时运算简化，Softmax 运算的详细描述总结在本文 2.4 节部分。在每一个卷积层之后都设置了一个激活层，经过试验确定的最佳的激活函数为 elu，且其公式如下elu(x

15、)=0，x 0 x，x 0(1)871由于该任务是将愤怒、恐惧、高兴、中性、悲伤、惊奇六种语音数据分为两类。愤怒、恐惧、悲伤为负面语音情绪数据，中性、高兴、惊奇为正面情绪。因此在输出层设置了两个全连接神经元，来将语音信号分为两大类。图 2卷积神经网络结构此外，考虑到网络结构的复杂度，在每一个隐含层之后设置了随机失活(Dropout)来防止网络在训练过程中发生过拟合11。在添加了 Dropout 后，每个隐含层的神经元在训练过程中会有一定的概率不更新权重，并且每个神经元不更新权重的概率都相等，这样的设置可以在很大程度上减小网络过拟合的可能性。经过多次试验，在本实验中，每个隐含层后的Dropout

16、概率值设置为 0.2。即在每一个隐含层中，所有神经元不更新权重的概率相等，都为 20%。在训练过程中，经过大量试验确定了模型的一些超参数:使用了 MSprop 作为网络的优化器，优化器的学习率设置为 0.0001，批量大小(batch size)设置为 32，迭代次数设置为 200，损失函数(loss function)为分类交叉熵(categorical-crossentropy)。2.4模型优化为了获取更加精确的模型效果，本实验在模型输出层添加了预警置信度的设置，来增强模型的实用性12。即数据集中的每一条语音会输出一个概率值，这一概率值代表每一条语音属于某个标签的概率，概率值越大则该条语音数据属于某标签的可能性越大，反之则可能性越小。这样的设置，在很大程度上保证了每一条语音输出各自类别的准确性。进一步提高了模型的分类精度，并且极大地提升了模型极端情况的预警性能。在本实验中，输出层的置信度值设置为 85%。通过自己录制的 120 条不同情感类别的语音数据对所提出的预警置信度设置方法进行验证。验证结果表明:预警置信度的设置可以让网络更好地识别每一条语音的特征，并且 120 条情感录音

展开阅读全文

基于卷积神经网络的火车站语音情感识别方法_彭凯贝.pdf