1、收稿日期:2022-06-20基金项目:陕西省科技厅项目一种起落架深窄异形复杂型腔测量平台的研制(2022GY-122)作者简介:屈瑾(1988-),女,陕西商洛人,硕士研究生,讲师。基于语音识别的智能交互系统设计屈 瑾(商洛学院,陕西 商洛 726000)摘 要:针对于当前语音信号的复杂性,和外界噪音的干扰,导致语音交互系统难以实现较为连续交互这一问题,采用由语音识别、单轮交互、多轮交互、语音合成这四个模块构成的基于语音识别的人机交互系统,在语音识别模块中,语音特征信号提取采用了 MFCC 特征提取方法,采用了深度算法进行构建声学模型。在多轮交互模块中,采用了 GPT-2 模型来实现了人机交
2、互中的长对话。结果表明:该语音交互系统可以精准地提取出语音中的所需特征,然后进行有效的语音识别,DNN-HMM 模型进行语音识别的 WER 值为 4.11,识别时间短,最后合成出了清晰自然的语音。该结果证明此语音交互系统具有可行性。关键词:语音识别;交互系统;深度算法;GPT-2;MFCC 中图分类号:TP273 文献标识码:A DOI 编码:10.14016/ki.1001-9227.2023.01.221Design of intelligent interactive system based on speech recognitionQU Jin(ShangLuo University
3、 ShangLuo Shaanxi 726000,China)Abstract:For the complexity of the current voice signal,and external noise interference,voice interaction system is diffi-cult to achieve more continuous interaction this problem,using by speech recognition,single interaction,multiple rounds of interaction,speech synth
4、esis the four modules of human-computer interaction,based on speech recognition system,in speech recognition module,voice feature signal extraction using MFCC feature extraction method,using the depth algorithm to build the acoustic model.In the multi-round interaction module,the GPT-2 model is adop
5、ted to realize the long dialogue in human-computer interaction.The results show that the speech interaction system can accurately extract the required features in the speech,and then carry out effective speech recognition.The WER value of the DNN-HMM model is 4.11,and the recogni-tion time is short.
6、Finally,a clear and natural speech is synthesized.The results demonstrate the feasibility of this voice inter-action system.Key words:Speech recognition;interactive system;deep algorithm;GPT-2;MFCC 0 引言机器智能化时代的到来,人们开始研究人与机器之间的交互。而随着探索的不断深入,随后催生了一门全新的自动语音识别技术。在该项技术的研究上,学者们不断对其进行改进,刘尚旺等人提出了人机交互系统多维语音信
7、息识别方法,通过该方法中的预加重、分帧加窗等法首先对多维语音信息进行预处理,把噪声等对语音的影响消除,然后提取相关特征参数,再通过关联重组方法对这些参数进行融合,从而完成人机交互系统多维语音信息的识别1。而房爱东等人研究的语音识别技术则是通过对一种或多种语音信号进行特征分析,然后可以实现声音信号的匹配和辨别,再将人工智能嵌入到语音识别技术中,这样更有利于语音识别的快速和准确2。张峰等人根据人对机器人控制的语音特点,从而设计出了一种基于双向长短时记忆(Bi-LSTM)网络的控制机器人的语音识别模型,并且还对其进行了进一步的优化,在该模型中,语音识别模型发出的命令可以很好地控制机器人3。这些对语音
8、识别在人机交互系统上的使用都做出了重大贡献,但在当前的语音识别的人机交互系统中,仍然还存在着语音识别连续性差等问题。因此,建立一个识别准确且连续性好的语音识别交互系统也是至关重要的。1基于语音识别的智能交互系统整体结构在语音识别的智能交互系统设计方案中,主要以四部分模块来构建,分别为语音识别、单轮交互、多轮交互、语音合成4。模块之间的工作流程如下图所示:根据图 1 可得,系统模块工作流程是,首先由麦克风去采集用户的语音信息,然后当系统检测到唤醒词之后,就进行语音识别操作,在语音识别过程中,系统对语音进行检测是否具有关键词,如果有,便进行单轮互证,反之,进行多轮互证,最后系统进行语音合成,然后输
9、出结果。122自动化与仪器仪表2023 年第 1 期(总第 279 期)图 1 系统模块工作流程图2 系统功能模块设计2.1 语音识别模块2.1.1 模块整体方案设计语音识别模块作为系统开始部分,在该处识别的结果会作为之后交互模块的输入,如果该模块出现了错误,就会对后面的输出语音信息产生影响,因此,该模块非常重要。模块设计方案为采集语音信号、语音信号预处理、提取语音信号特征、对处理后的语音信号进行语音识别6。目前,运用语音识别的领域非常广泛,在不同环境下研究任务不同,所选用的方法也不同。传统的高斯混合-隐马尔可夫模型(Gauss Mixture Model-Hid-den Markov Mod
10、el,GMM-HMM)模型在实现语音识别系统时,虽然操作较为简单,但是在处理语音这种非线性信号的建模上,却不能够达到一个比较好的效果。而动态神经网络-隐马尔可夫模型(语 Dynamic Neural Net-work-Hidden Markov Model,DNN-HMM)模型可以很好地实现在输入时采用连续的拼接帧,因而可以更好地利用系统输入语音信号的上下文信息7。文字语音识别系统上采用深度学习算法来进行语音识别。2.1.2 语音信号特征提取语音信号中的信息是复杂多样的,想要对所有信息都进行识别,计算量就变得非常庞大,而准确率也会降低。为了更加准确地提取出语音中的信息,就需要对语音做进一步的特
11、征提取,减少其中的计算量,提高语音识别的准确率。Mel 频率倒谱系数(Mel-Frequency Ceptral Coefficients,MFCC)特征提取方法由于其独特结构,使用该法进行特征提取,所提取到的信息会更加全面,并且使用该法进行语音信号处理可以更好地描述声音特性8。所以,在本设计中也决定采用 MFCC 特征提取方法,方法原理如图 2 所示:图 2 MFCC 特征提取原理图2.1.3 语音识别模型语音识别模型选用目前使用较广泛的深度算法DNN,进行连续的语音识别,与传统的算法相比,它的优势在于输入可以采用连续的拼接帧,然后实现更好地利用语音信号中的上下文信息。并且,在训练中,还可以
12、采用随机优化算法,使得 DNN 在进行大规模数据训练时,速度更快,性能更出众。DNN-HMM 利用了深度学习对大量的数据进行建模,DNN 用来描述所有连接的HMM 状态后的后验概率9。DNN-HMM 声学模型如图3 所示:图 3 DNN-HMM 声学模型该模型在计算中,首先假设模型输入 h0=ot,那么各隐层的输出向量 hl可以用以下的公式来进行计算:al=wlhl-1+bl,1lL+1(1)hl=f al(),1lL(2)在式子中,Ot 为声学特征向量,Wl和 bl分别为网络第 l 层的权重和偏置向量。f(.)表示的是隐层节点的非线性激活函数10。而也有研究表明,基于线性整流单元激活函数 D
13、NN-HMM 模型更加实用,其函数表达公式如下:f(a)=max(0,a)(3)DNN 的输出层会对输入观察样本的后验概率分布使用 softmax()函数进行建模。其低 i 维输出为:yi=p(i ot)=hL+1i=e-aL+1ije-aL+1i(4)DNN 的优化目标函数一般情况下都是采用了最小交叉熵准则和最小均方误差准则等。在此实验中采用CE 函数,该函数可以对实际输出和目标输出之间的相似度做出描述,CE 值越小,就代表了模型的性能越佳。此目标函数用以下公式进行表示:Fce(W)=-Nr=1Tt=1log(yrt(srt)(5)2.2 多轮交互设计在交互模块中,系统会根据用户的输入信息,
14、输出合适的内容,而用户要方便的获取信息,就需要系统将输出的文本进行语音合成操作。在一个完整的人机交互系统中,语音合成技术是必不可少的,通过语音合成技术,可以将用户所需的文本转化成语音的形式,然后通过扬声器等外部设备反馈给用户12。在对目前成熟222基于语音识别的智能交互系统设计 屈 瑾的语音合成技术进行考虑后,考虑到传统方法较耗时,且昂贵,所以决定采用基于 pixelCNN 架构的用于直接生成原始音频波形的生成模型 waveNet 来实现语音合成模块。2.3 多轮交互模块设计多轮交互模块主要为预训练模型,多轮交互使用的为开放 Weibo 数据,运用深度学习算法可以实现对话数据的快速学习,更能表
15、现出数据特征。在多轮对话上,需要去考虑更多的现实因素,目前,多以 BERT 和 GPT为主的预训练模型的应用来实现多轮交互,在实现多轮人机交互过程中借助于 GPT-2 预训练模型来进行实验。GPT-2 模型是基于 transformer 模型的,但又有所不同,具体结构如图 4 所示:图 4 GPT-2 模型结构图这个 transformer Decoder 模型是由多个多头注意力块组成的,而在每个时间步骤里,自注意力机制只能观察到左侧的信息13。GPT-2 模型的训练主要是分为了两个部分:(1)无监督预训练语言模型拟定一个句子 U=u0,un,GPT-2 训练语言模型时需要最大化公式(6)所示
16、的函数:L1(u)=log10p(uiui-k,ui-1,)(6)GPT-2 的语言模型为多层 Transformer 的 Decoder 结构,采用了多头注意力层进行信息处理,处理输入文本和所对应的位置信息,然后输出下一个单词的概率分布:h0=uwe+wp(7)hn=transformer-block hi-1()i 1,n(8)p(u)=softmax(hnwTe)(9)上述公式中,h0表示的是模型输入,we是表示单词Embedding,wp是单词位置。然后会得到,h0,再将,h0依次传入模型里面,最后可以得到,hn。最后再将,hn送到softmax 层得出预测下个词的出现频率,p(u)14。(2)下游任务微调(fine-tuning)在预训练之后,模型就要依据不同的具体的下游任务进行微调。通常情况下,将给定的单词序列x1,xm和标签 y 通过模型便可以得到训练集 C。GPT-2 的fine-tuning 过程就是依据单词序列来预测标签 y。p(y x1,xm)=softmax(hmiwy)(10)在式子中,wy代表的是预测时输出的参数,进行微调的时候需要最大化下面的函数L2(C)