1、收稿日期:2022-07-14 基 金 项 目:咸 阳 师 范 学 院“青 年 骨 干 教 师”培 养 项 目(XSYGG201904);咸阳师范学院科研计划项目村上春树文学中的中国“事”与“情”(XSYK21002)作者简介:李星(1989-),女,陕西兴平人,硕士研究生,讲师。基于神经网络的智能外语翻译机器人语义纠错系统李 星(咸阳师范学院,陕西 咸阳 712000)摘 要:针对传统语法错误纠正系统存在并行化程度低的问题,提出以神经语法错误纠正基线模型为基础模型,在基于循环神经网络编码器-解码器基础上对其进行改进,并构建一个基于自注意力机制的语法错误纠正模型Transformer,通过此模
2、型提升语法纠正效果。实验结果表明,Transformer 模型在对冠词、名词、介词、形容词等语法错误进行纠错时,其纠错召回率明显高于传统的 MLConv 模型,且本模型的计算并行化程度更高。由此说明,基于自注意力机制的语法错误纠正模型性能更为优越,构建的 Transformer 系统在语法错误纠正中具有可行性。关键词:语法错误纠正;循环神经网络;编码器-解码器;Transformer 系统 中图分类号:TP273 文献标识码:A DOI 编码:10.14016/ki.1001-9227.2023.01.246Semantic error correction system of intelli
3、gent foreign language translation robot based on Neural NetworkLI Xing(Xianyang Normal University,Xianyang Shaanxi 712000,China)Abstract:In view of the problem of low parallelization of the traditional syntactic error correction system,the proposed neural syntactic error correction baseline model is
4、 based on the recurrent neural network encoder-decoder,and builds a syn-tactic error correction model based on the self-attention mechanism,Transformer,through which to improve the grammar cor-rection effect.Experimental results show that the error-correction recall of Transformer model is significa
5、ntly higher than the traditional MLConv model,when correcting grammatical errors like words,nouns,prepositions and adjectives,and the com-putational parallelization of this model is higher.This shows that the grammar error correction model based on the self-atten-tion mechanism is superior,and the c
6、onstructed Transformer system is feasible in the grammar error correction.Key words:grammar error correction;cyclic neural network;encoder decoder;transformer system0 引言近年来,随着人工智能和计算机技术的飞速发展,越来越多的智能机器人在各个领域得到广泛应用。其中,外语翻译需求的增长,相应的外语翻译机器人随之诞生。外语翻译机器人很大程度上解决了人们翻译困难的问题,提高了翻译效率。但随着自动化和智能化水平的不断提升,外语翻译机器人中
7、的语法错误纠正效果不佳的问题逐渐显现。且语法错误纠在语言研究中占据了越来越重要的地位,因此,对于语法错误纠正的高效系统的研究和建立也至关重要。语法错误的纠正方法已经开始过渡到了神经机器翻译上,基于神经网络的编码器-解码器模型可以在文章中进行大规模的建模,提升了模型的泛化力。陈瑞提出了一种注意力嵌入的LSTM 英语机器翻译模型,对此进行实验,实验结果中可得出,该模型对于源语言的上下文信息进行了加强,使得英语翻译的模型得到改善1。陈琳提出了一种基于机器视觉的英语翻译机器人错误文本检测系统,该系统的硬件由光源模块和图像获取模块以及机器视觉模块组成的,而在错误文本检测模块主要是使用了卷积神经网络进行构
8、建出一个分离器,使得英语翻译错误文本检测更加智能和高效2。张明等对语法纠错研究进行了一系列的调查和研究,分析了在语法纠错中对于数据的处理、算法模型和评估方法等都做了探究,使可以更好的了解到当前对于语法纠错还存在的问题3。在以上的探索研究中,卷积神经网络在英语翻译模型中得到了运用,且可以看出卷积神经网络擅长与捕捉局部特征,但在长距离的依赖语法错误上效果不佳。对于这一问题,提出关于构建基于自注意力机制的语法错误纠正模型,有效地避免了循环神经网络和卷积神经网络的缺点,在该模型中,序列中的任何位置上都可以通过自注意力机制与其他位置进行一个交互。1 基于神经网络的语法错误纠正模型1.1 语法错误纠正定义
9、首先输入一个语法使用不当的句子,然后再输入一个语法使用正确的句子,再对语法使用不当的句子进行642基于神经网络的智能外语翻译机器人语义纠错系统 李 星错误的纠正,但要保留下该句子的原始语义,即为语法错误纠正的定义过程4。语法错误纠正模型建模条件概率分布:p(y x)=nt=1p(ytx,y1:t-1;)(1)基于极大似然估计来学习模型参数:=argmaxnt=1logp(ytx,y1:t-1;)(2)1.2 循环神经网络在对输入序列的编码中,利用神经网络对其编码成固定大小的向量,并且保留下原有输入序列的结构属性。图 1 为循环神经网络的展开示意图,其形式如下:ht=h(wtxt+uhht-1+
10、bh)(3)yt=(wyht+by)(4)通常情况下使用的是 BPTT 算法训练循环神经网络,梯度流从最后一个时间步向前回传到第一个时间步。在输入较长的序列时,不能有效地训练到原始的循环神经网络,因为原始的循环神经网络在更新参数时,会存在梯度消失或者爆炸的问题5。而这一问题是由于网络在逐步地执行前向计算时,连续多次应用了非线性激活函数,导致反向传播时计算的梯度会猛烈地收缩或增长。图 1 按时间步展开的循环神经网络带门限机制的循环神经网络对网络中的非线性激活函数做出了调整并且还设计了新的循环单元。长短期记忆和门控循环单元的核心思想都是允许在网络中流通而不用经过非线性激活函数,这两种循环神经网络变
11、体在实际当中也得到了广泛的运用。LSTM 的形式定义如下:输入门:it=(wixt+uiht-1+bi)(5)遗忘门:ft=(wfxt+ufht-1+bf)(6)输出门:ot=(woxt+uoht-1+bo)(7)输入转换:ct=tanh(wcxt+ucht-1+bc)(8)细胞状态:ct=ftct-1+itct(9)隐含状态:ht=ottanh(ct)(10)CRU 在 LSTM 上做出了进一步的简化,循环单元就只包含了两个门,其定义为:重置门:rt=(wrxt+urht-1+br)(11)更新门:zt=(wzxt+uzht-1+bz)(12)输入转换:ht=tanh(whxt+uh(rth
12、t-1)+bh)(13)隐含状态:ht=(1-zt)ht-1+ztht(14)从整体上来看,GRU 和 LSTM 的性能是差不多的,都可以有效地建模序列中的长距离依赖,但是 GRU 的参数会更少一些6。1.3 注意力机制的编码器-解码器对神经网络的编码器-解码器的学习和分析中,发现适用于序列到序列的学习中,可以用其进行建模。输入序列首先会由编码器进行编码,然后组成一系列的隐含状态,然后再由编码器根据这些隐含状态和当前的时间步骤输出的符号序列前缀来进行下一个符号的输出7。图 2 是该类模型的一个示意图:图 2 带注意力机制的编码器-解码器模型且进行形式化后得到:e1,e2,em=encoder(
13、x1,x2,xm)(15)yt=decoder(e1,e2,em,y1,y2,yt-1)(16)式中,yt表示的是由 softmax 函数计算后得出的一个在符号表上个的概率分布向量,而当它在预测下一个符号时,既可以选择概率最大的对应符号也可以去在每一个时间步中去保留下得分最高的前缀序列8。注意力机制是神经网络编码器-解码器模型中的一个重要的组成部分。注意力在神经网络机器的翻译中,对目标语言进行翻译时,在不同的时间步上会把“注意力”分配到不同的语言片段中去。比如把句子“我爱北京故宫”这句话翻译成英语后,在解码器对“love”进行翻译时,重点把注意力分配到中文上去,需要将注意力重点集中到中文的“爱
14、”字上面去,但是在翻译“Gugong”时,需要重点关注的是“故宫”9。所有的注意力权值构成在输入序列上的一个概率分布都可以通过具体的计算公式得出,如下所示:at,i=exp(Atten(dt,ei)mj=1exp(Atten(dt,ej)(17)ct=mi=1at,iei(18)2基于自注意力机制的语法错误纠正模型经过大量的研究发现,Transformer 模型在机器翻译中比其他结构的编码器-解码器的翻译效果更佳,例如742自动化与仪器仪表2023 年第 1 期(总第 279 期)循环神经网络、卷积神经网络等。在此处使用 Trans-former 来对语法错误纠正进行建模,下面将对模型结构,模
15、型的损失函数和训练准则进行介绍。2.1 模型结构图3 为Transformer 模型的结构示意图,该模型的构成包含了一个编码器和一个解码器。首先将源端错误句子进行设定,然后再对你其进行编码,用连续空间中的一组隐含状态来进行表示,再依据这个表示,解码器会随着时间步,然后对生成的目标端进行句子错误的纠正10。图 3 Transformer 结构图该模型中的编码器和解码器都是由 6 过热相同的层组成。自注意力子层和一个前向神经网络子层组成了编码器中的层,解码器中的层同样是由这两个层构成的11。首先通过自注意力子层进行输入,这时的前向神经在不同位置的输出上被应用。在编码器和解码器之间还包含了一个编码器
16、-解码器注意力子层。编码器和解码器上的子层,进行输出时都有残差的连接,然后把还要做层归一化的处理。注意力机制模型中的注意力机制进行形式化定义:(1)点乘注意力进行缩放之后 其中的查询向量、键向量、值向量集合分别用了 q、k、v 来进行表示,计算公式如下所示:ScaAtten(q,k,v)=softmaxqkTdk()v(19)(2)多头注意力多头注意力将执行多次缩放的点乘注意力计算,模型在序列中的任意位置进行编码,都可以得到表示子空间的信息。MultiHead(q,k,v)=Concat(head1,head2,headh)wo(20)headi=ScaAtten(qwQi,kwKi,vwvi)(21)在此处把各项值进行统一设定,h=8,dmodel=512,并且 dk=dv=dmodel/h=64,使得执行单词全维度的 ScaAtten计算量是相差不多的。自注意力子层:自注意力机制可以使其他位置上的符号都进行交互从而生成更佳优质的编码在序列对某个位置上的符号进行编码时。具体的在句子中来看,例如编码输入句子“A bunch of flowers was put in the bas-k