1、收稿日期:2022-08-11基金项目:新时代高职院校教师教学能力提升途径研究(203767);“提质培优”背景下高职公共英语课程思政教学改革的研究(22SKGH607)作者简介:涂琼引(1987-),女,重庆长寿人,本科,讲师。基于语音识别的英语翻译终端设计涂琼引,成 南(重庆轻工职业学院,重庆 401329)摘 要:针对传统的英语翻译系统存在无法准确识别说话者语音和语气的问题。设计一个基于语音识别和语气语音合成的英语翻译系统,该系统终端主要包括语音识别、语言翻译、语气识别、语气转换和语气语音合成模块。基于 CVAE 语气语音合成模型对语音识别和语言翻译的英语语句进行语气语音合成,以进行便携
2、式英语翻译终端设计与实现。实验表明,基于 CVAE 的语气语音合成模型合成语气语音的基频曲线与原始语音间的误差仅为 0.02,两者基频曲线十分接近。且在主观评价方面,本模型的语音合成自然度 MOS 评分为 3.84 分,方差仅为 0.004;情感语气一致性平均打分为 3.72,方差为 0.002。综合分析可知,本模型可取得较好的语音生成效果,生成语音具备多样性和准确性。系统应用发现,本模型在系统中可提升英语翻译系统终端的语音识别和语气语音合成效果,系统性能优越。关键词:语音识别;英语翻译;CVAE;系统终端;语气语音合成 中图分类号:TP392 文献标识码:A DOI 编码:10.14016/
3、ki.1001-9227.2023.01.251The Design of the English Translation Terminal Based on Speech RecognitionTU Qiongyin,CHENG Nan(Chongqing Vocational College of Light Industry,Chongqing 401329,China)Abstract:In view of the traditional English translation system,there is the problem of low speech recognition
4、accuracy,flat output speech and intonation,which cannot accurately express the tone of the speaker.An English translation system based on speech recognition and tone speech synthesis is proposed.The system terminal mainly includes speech recognition,language translation,tone recognition,tone convers
5、ion and tone speech synthesis module.Based on the conditional variational autoencoder(CVAE)tone speech synthesis model for speech recognition and language translation,in order to design and re-alize the portable English translation terminal.The experiment shows that the error between the base freque
6、ncy curve and the original speech based on CVAE is only 0.02,and the two base frequency curves are very close.For subjective evaluation,the MOS score of speech synthesis is 3.84,and the variance is only 0.004;the average score is 3.72,and the variance is 0.002.Comprehensive analysis shows that this
7、model can achieve good speech generation effect,and generate speech with di-versity and accuracy.The system application shows that this model can improve the speech recognition and tone speech syn-thesis effect of the English translation system terminal,and the system performance is superior.Key wor
8、ds:speech recognition;English translation;CVAE;system terminal;tone voice synthesis0 引言通过语音识别和语音合成技术赋予英语翻译机器人交互能力,实现了人机无障碍语言交流。随着语音合成技术的不断发展,越来越多的语音识别和语音合成产品逐渐展现在人们眼前,如小米的小爱同学和百度的小度,其通过语音识别和合成技术实现多场景的语音对话和交流,该语音助手在智能家居、语音搜索等领域得到广泛应用,实现了智能化人机交互,为人们的生活提供了极大的便利。然而,当前英语翻译领域的英语翻译系统存在语音识别准确率低,语音合成效果不佳的问题,
9、其无法准确地对人类语言和语气进行有效识别和合成,无法准确表达人类的情感信息,从而无法输出高质量、高自然度的语音。针对此问题,已有学者进行了深入研究。赵力瑾等为实现英语翻译机器人的语音准确识别,提出了基于连续隐马尔科夫模型,构建一个英语翻译机器人语音识别系统,通过该系统对输入语音进行语音分类和概率输出1;刘晓峰等针对语音识别准确率低的问题,提出了基于多核卷积融合网络,通过此网络构建BLSTM-CTC 语音识别模型,利用 BLSTM 网络对输入语音进行上下文信息提取和分析,提升了历史信息识别率2;何文龙等以某端到端语音翻译模型为研究对象,提出了对该模型进行对抗训练,利用编码器和解码器实现了输入语音
10、的编码解码处理,一定程度上提升了翻译效果3。基于此,为实现英语翻译系统的语音准确识别,提高翻译质量。结合以上研究成果,提出设计一个152自动化与仪器仪表2023 年第 1 期(总第 279 期)基于语音识别的语音翻译终端,通过该终端实现输入英语语句的准确识别,从而进一步提升英语翻译准确率,为翻译领域提供数据参考和技术支持,具有一定的实际应用意义。1 VAE 基本原理变分自编码器(Variational auto-encoder,VAE)是深度学习中一种有效的生成模型,其可随机生成观测数据,实现推断学习,从高维数据中学习到有效信息,在语义理解、语音识别和语言处理等方面均得到广泛应用。VAE 是一
11、种包含隐变量的生成模型,主要分为推断网络和生成网络4。网络结构如图 1 所示。图 1 VAE 整体结构推断网络负责对输入数据变量进行推理和分析,从中获取隐变量 Z 的后验概率分布;生成网络的作用是在概率分布的基础上进行还原重构,得到输入数据的近似概率分布5。若 VAE 中的正态分布表示为 qz|x(),从该分布中可获得输入数据的隐变量 Z。在隐变量中加入辅助参数,即可从噪声分布中获取隐变量,可表示为:zi=xi()+xi(),N;0,1()(1)生成网络的输入即为隐变量 Z,通过神经网络可计算出 VAE 中 px|z()的均值与方差,表达式为:px|z()=Ni=1N xi,zi(),zi()
12、()(2)2基于语音识别和语气语音合成的英语翻译系统2.1 英语翻译器终端整体设计为提升英语翻译器的翻译质量和翻译效果,提出基于语音识别的翻译终端设计。该翻译器终端主要分为五个模块,分别为语音识别、语气识别、语言翻译、语气转换和语气语音合成模块6。终端设计结构如图 2 所示。图 2 英语翻译终端设计结构在翻译器中输入语种 A 后,利用语音、语气识别模块分别进行识别,分别输出语种 A 文本和语种 A 语气,然后分别对语种 A 文本和语气进行语言翻译和语气转换,从而得到语种 B 文本和语气;最后利用语气语音合成模块进行语气语音合成处理,最终输出语种 B 语音信号,从而实现英语从语种 A 到语种 B
13、 的语句准确翻译。2.2 功能模块设计2.2.1 语音识别模块语音识别模块是英语翻译终端中的重要组成部分,其基本原理是将输入的语音信号转换为文本形式,即对说话人的连续语音进行准确识别,并将其转换为目标文本7。语音识别模块整体结构如图 3 所示。图 3 语音识别模块结构设计由图 3 可知,语音识别模块主要包括信号处理、特征提取、模式匹配和后处理部分。该模块的工作流程为输入语音信号后,通过信号处理模块对该语音信号进行预处理,然后进行特征提取,选择一部分进行特征识别,另一部分用于训练,并参考模型库进行模式匹配8;最后对匹配后的语音信号进行后处理操作,最终输出识别结果。语音识别主要分为本地和云语音识别
14、。其中,云语音识别不需机械能网络学习、训练和构建数据库,其操作步骤更为简单。因此,选择云语音识别技术作为语音识别的基本方法,通过其提升英语翻译器的识别率,降低应用成本。2.2.2 基于 CVAE 的语气语音合成VAE 编码器虽然可实现语音数据生成,但在特定语气合成中,此编码器无法进行实现。为实现语气语音的有效合成,提出在生成语气的基础上加入语气标签信息,基于 CVAE 语气模型加入语音合成,得到语气语音合成系统。系统框架如图 4 所示。图 4 基于 CVAE 的语气语音合成框架252基于语音识别的英语翻译终端设计 涂琼引,等由图 4 可知,该系统主要分为四个部分,分别为语料库、声学模型、语气模
15、型和声码器。该系统既可生成新的语气,又可实现特定语气合成9。其中,语料库选择采用 Blizzard Challenge 2018 语料库,该语料库中含有陈述、疑问等多种混合语气。声学模型选择自回归式的声学模型,其主要基于 seq2seq 的编码器和引入注意力机制的解码器进行声学特征提取;声码器选用轻量级的World 声码器,其可保证语气合成质量不受影响。2.2.3 基于 CVAE 的语气模型基于 CVAE 的语气模型整体结构如图 5 所示,其主要由编码器-解码器(Encoder-Decoder)组成。图 5 基于 CVAE 的语气模型结构图5 中,pz|c()和 qz|x,c()分别表示 z
16、的先验网络和后验网络。编码器的输入为三维的基频特征,分别为基频 F0、语气条件信息 c 和文本特征 t10。解码器的生成时,得到隐变量 z 和语气信息 c,输入至解码器后,生成声学特征 F0,进行多次训练后使得 F0与 F0 逐渐接近11。其中,该模型采用 Pytorch 框架进行构建,整体结构如图 6 所示。图 6 编码器-解码器结构由图 6 可知,此网络结构主要分为输入层和隐含层,激活函数为 Sigmod12。编码器输入的基频特征为 3维,瓶颈层输出的隐变量为 16 维,解码器选择输入为 16维隐变量与 1 维条件语气信息,可重构出 3 维的基频 F0。2.2.4 基频特征提取 基频可对说话人的音色与声调变化产生影响,可准确显示上下文信息,可很好地对语音信号的韵律特征进行表征13。为更好地对语音语气进行合成,采用基频对语气信息的声学参数进行学习。通过 SHRP 算法进行频谱转换后,通过谐波对基频进行表述。若某一段语音信号表示为 A f(),其基频与最大频率分别为 f0和 fmax,则谐波幅度之和可表示为;SH=Nn=1A nf0()(3)式(3)中,N 表示最大谐波频次,若基频为最