融合多种语言的语音情感识别

资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第6期No.62023年3月Mar.2023收稿日期：2021-12-21稿件编号：202112131作者简介：张可欣（1999），女，江苏徐州人，硕士研究生。研究方向：人工智能、语音情感识别。语音情感识别广泛应用于教育行业、服务行业、辅助驾驶行业以及刑事侦查行业。不仅国内人们对语音情感识别展开深入的研究，语音情感识别在国外也受到了重视1-3。1997年，麻省理工大学的教授提出了“情感计算”的概念4。前人在语音特征值的选择与提取、去除冗余特征、语音情感数据库的选择以及构建分类器方面实现了很大的进展。然而，

2、跨语言的语音情感识别准确率低，还有待于提高。语言的差异，会导致识别率较低。为了解决这一个问题，Zheng W L 提出的使用一种用于跨语料库多时话域自适应的多尺度差异对抗网络方法4，文献5提融合多种语言的语音情感识别张可欣，刘云翔（上海应用技术大学计算机科学与信息工程学院，上海 201418）摘要：由于语言的差异，提高跨语言情感数据库识别语音情感的准确度，仍然是一项难题。该文针对语言差异这一难题，融合了语音情感识别技术和自然语言处理技术。该文选取Berlin语音情感数据库和 CASIA 语音情感数据库，从两个数据库中分别挑选 200 条语音，选用开源 API 下的 GoogleSpeech，

3、实现语音文本的转化。使用机器翻译方法，将语言转化为文本，统一翻译成中文。利用自然语言处理的词法分析、句法分析、LSA的关键词提取算法，提取出表达情感的关键词。对于被提取出来的关键词，使用SpeechLib工具包将提取过特征值的文本转化成语音，提取MFCC特征，构建DNN+BLSTM模型，实现语音情感的分类。实验结果表明，文中使用的方法未加权平均召回率（UAR）和加权平均召回率（WAR）分别为48.22%和56.5%，相比其他方法，UAR和WAR分别提高了4%和8%。关键词：语音情感识别；自然语言处理；跨语言的语音情感识别；语音文本转化；LSA关键词提取算法中图分类号：TN0文献标识码：A文章编

4、号：1674-6236（2023）06-0025-05DOI：10.14022/j.issn1674-6236.2023.06.006Speech emotion recognition integrating multiple languagesZHANG Kexin，LIU Yunxiang（School of Computer Science and Information Engineering，Shanghai Institute of Technology，Shanghai201418，China）Abstract:Aiming at the problem of language

5、 differences，this paper selected Berlin voice emotiondatabase and CASIA voice emotion database，selected 200 voices respectively，and selected Googlespeech under the open source API to realize the transformation of voice text.Use machine translation totranslate the text into Chinese.Using the lexical

6、analysis，syntactic analysis and LSA keyword extractionalgorithm of natural language processing，the keywords expressing emotion were extracted.The extractedkeywords were transformed into speech using speechlib toolkit to extract MFCC features，built DNN+BLSTM model and completed classification.The exp

7、erimental results showed that the unweighted averagerecall（UAR）and weighted average recall（WAR）of the method used in this paper were 48.22%and56.5%respectively.Keywords:speech emotion recognition；natural language processing；cross language speech emotionrecognition；speech text conversion；LSA keyword

8、extraction algorithm-25电子设计工程 2023年第6期出了基于域自适应最小二乘回归的跨语料库语音情感识别方法。和以上研究相比，该文的优点在于实现了语音文本，文本语音的相互转化。通过相互转化，可以起到灵活消除差异、提取关键词的作用，这样可以避免大量情感无关的信号降低识别效率。1相关研究在语音情感识别方面，前人多数关注于提取语音特征、去除冗余特征、构建分类器这三个方面。对前人做过的语音情感识别的研究进行总结。语言情感的特征值包括基于谱的相关特征，韵律学特征以及音质特征。基于谱的特征可以正确地反映人们的声道变化，根据声谱变化，推断人们的情感。常见的谱特征有 MFCC、LPC。梅

9、尔频谱是根据人耳听觉产生的特征参数。MFCC频谱的优点在于可以有效地降低高频率的噪声干扰6-11。韵律学特征描述了说话语音的声调、快慢、音高的变换。不同的情感状态下，这些状态有所不同。韵律学特征包括短时能量、基频、短时过零率、语速。当人们情绪高涨时，短时能量增大、语速加快；相反，当人们心情处于低谷期时，短时能量减小、语速减缓。短时过零率是指单位时间内，每一帧经过零值的次数，反映了语音信号的频率。通过观察说话者语音的声调、快慢及音高的变换，就可以对说话者的情绪进行判断。韵律学特征比频谱特征更加简单，无需提取频率波，但是缺点在于具有偶然性和主观性。音质特征的目的是判断语音的纯净度。当人们悲伤难以平

10、复时，他们的音质中会出现喘息、哽咽。选取共振峰为音质特征，共振峰描述了不同情感下的声道共鸣差异，因此共振峰的位置会产生差异。文献12提出句级特征是以一句话为单位，特征不是等长的。帧级特征是把语音信号分为等长的部分。对于帧级特征的预测需要整合所有帧的结果，作为最后的预测结果。该文介绍了帧级特征和句级特征各自的优势。帧级特征的优点在于语音信号具有平稳性，缺点在于标签分配的合理性不足。文献13对CNN和BLSTM进行了融合，该文提取了语谱图和语音特征。语谱图作为 CNN的输入，语音特征作为 BLSTM 的输入，最后将两者的结果进行融合，在 IEMOCAP 数据库上准确率得到了提高。2自然语言处理2.

11、1词法分析在自然语言处理领域中，词是最小的部分，正确的分词是理解自然语言的重要步骤。常见的分词方法有基于规则的正向分词匹配法、逆向分词匹配法、双向最大匹配法，以及基于统计的统计分词法。在将语音转化为文本后，使用 Jieba 工具进行分词处理。Jieba 工具融合了基于规则和基于统计的两种方法。Jieba工具功能丰富，在进行分词的同时还可以进行词性的标注，为之后的句法分析和关键词的提取提供了良好的基础，还可以支持多种编程语言。Jieba工具使用精确模式将句子精准分开，适合文本分析。使用全模式可以将句子中所有的词都扫描出来，速度非常快。使用搜索引擎模式可以对长词再次进行切分，提高了召回率。分词结束

12、之后，再进行词性标注。词法分析过程如图1所示。图1词法分析过程2.2句法分析句法分析的主要任务就是识别句子中包含的句法成分以及句子成分之间的关系。一般使用句法树表示句法分析的结果。句法分析的问题在于存在歧义和搜素空间巨大的局限性，因此需要设计良好的句法分析算法。该文使用基于最大间隔的马尔可夫网络的句法分析，它是支持向量机和马尔可夫网络的结合，共同吸取了两者的优点，能够处理复杂耗时的句法分析，也可以在消除歧义方面起着重要的作用。这是一种判别式的句法分析，其判别函数为：f(x)=argmaxyG(x)（1）式中，(x,y)表示与x相对应的句法树y的特征向量，w表示特征权重。句法分析过程如图2所示。

13、图2句法分析过程-262.3关键词的提取词向量在文本情感分类中起着重要的作用。词向量是指把文本表达成方便语义理解的向量的形式，以向量的形式提取无标注文本中的有用信息。词向量的表达决定着文本情感分类的效果。该文使用向量化BOW模型，核心思想是上下文相似的词语义也相似。为了提高文本情感识别的准确性，需要从文本中提取关键词。文中使用LSA算法提取关键词，该算法以向量的形式进行特征值提取。首先把词向量拼成文档矩阵（mn），其次，对文档矩阵进行奇异值分解（mrrrrn），最后，矩阵映射到更低维度 k(mkkkkn)，通过计算相似度，取相似度最高的作为关键词。2.4文本-语音的转换使用名为 pyttsx

14、的 python 包可以把提取出的带有情感关键词的文本转化为语音。若没有pyttsx包，要先安装，安装的代码为 pip install pyttsx，然后就可以进行文本-语音的转化。转化好音频后提取它的MFCC 特征，在下面介绍的分类器中完成语音情感识别。3情感分类模型3.1DNN卷积神经网络卷积神经网络模型如图 3所示。卷积神经网络的激活函数选取ReLu函数，损失函数选取交叉熵损失函数，然后设置卷积层和池化层。特征图是通过对输入图像进行卷积计算和激活函数计算得到的。卷积过程就是用一个大小固定的卷积核按照一定步长扫描输入矩阵进行点积运算。卷积核是一个权重矩阵，特征图通过将卷积计算结果输入到激活

15、函数内得到，特征值的深度等于当前层设定的卷积核个数。假设语谱图的长为 M、宽为 N，卷积核 W的长为I、宽为J，偏置大小为b，激活函数为f，用卷积核提取语谱图的计算公式为：ymn=f(j=0j-1i=0i-1xm+i,n+jwij+b)（2）式中，ymn表示输出提取的语谱图的特征图。池化层在卷积层之后，池化操作将相似的特征合并起来，并选取区域的最大值和平均值，池化操作的作用是缩小特征图的尺寸，减少计算量。对于特征值多的图像，可以去除图像的冗余信息，提高图像处理效率，减少过拟合。该文的卷积神经网络是为了提取语谱图的特征值，使用两个卷积层、两个全连接层，经过softmax激活层变化，得到预测结果。

16、图3卷积神经网络模型3.2BLSTM神经网络有时信息既可以由前面的序列决定，也可以由后面的序列决定，因此引入了BLSTM模型，用于实现信息的双向记忆。语音信号序列记为x(1),x(2),x(T)，输出信号记为r?(T),r?(T)，r?(T)代表正向特征输出，r?(T)代表反向特征输出。BLSTM 网络解决了 RNN 不能实现双向记忆的问题。BLSTM的循环神经网络结构图如图4所示。图4BLSTM的循环神经网络结构图4实验设计4.1情感数据库的设计该文选取 Berlin情感数据库和 CASIA 汉语情感数据库做跨语言的语音情感识别实验。Berlin情感数据库是由柏林工业大学录制的德语情感语音库，由 10位演员(5男 5女)对 10个语句(5长 5短)进行七种情感(中性、生气、害怕、高兴、悲伤、厌恶、无聊)的模拟，共包含800句语料，采样率为48 kHz(后压缩到16 kHz)，16 bit量化。采用CASIA汉语情感数据库对比验证识别效果。CASIA情感数据库是由中科院录制的，环境信噪比为 35 dB，2男 2女录制 50句，包含高兴、中性、愤怒、悲伤、害怕、吃惊六种情感，采样频率为1

展开阅读全文

融合多种语言的语音情感识别_张可欣.pdf