1、基于忆阻循环神经网络的层次化状态正则变分自编码器胡小方*杨涛(西南大学人工智能学院重庆400715)(类脑计算与智能控制重庆市重点实验室重庆400715)摘要:变分自编码器(VAE)作为一个功能强大的文本生成模型受到越来越多的关注。然而,变分自编码器在优化过程中容易出现后验崩溃,即忽略潜在变量,退化为一个自编码器。针对这个问题,该文提出一种新的变分自编码器模型,通过层次化编码和状态正则方法,可以有效缓解后验崩溃,且相较于基线模型具有更优的文本生成质量。在此基础上,基于纳米级忆阻器,将提出的变分自编码器模型与忆阻循环神经网络(RNN)结合,设计一种基于忆阻循环神经网络的硬件实现方案,即层次化变分
2、自编码忆组神经网络(HVAE-MNN),探讨模型的硬件加速。计算机仿真实验和结果分析验证了该文模型的有效性与优越性。关键词:变分自编码器;忆阻器;忆阻循环网络;文本生成中图分类号:TN918.3;TN601文献标识码:A文章编号:1009-5896(2023)02-0689-09DOI:10.11999/JEIT211431Hierarchical State Regularization Variational AutoEncoderBased on Memristor Recurrent Neural NetworkHUXiaofangYANGTao(College of Artifici
3、al Intelligence,Southwest University,Chongqing 400715,China)(Brain-inspired Computing&Intelligent Control of Chongqing Key Laboratory,Chongqing 400715,China)Abstract:Asapowerfultextgenerationmodel,theVariationalAutoEncoder(VAE)hasattractedmoreandmoreattention.However,intheprocessofoptimization,theva
4、riationalauto-encodertendstoignorethepotentialvariablesanddegeneratesintoanauto-encoder,calledaposterioricollapse.Anewvariationalauto-encodermodelisproposedinthispaper,calledHierarchicalStatusRegularisationVariationalAutoEncoder(HSR-VAE),whichcaneffectivelyalleviatetheproblemofposteriorcollapsethrou
5、ghhierarchicalcodingandstateregularizationandhasbettermodelperformancethanthebaselinemodel.Onthisbasis,basedonthenanometermemristor,themodeliscombinedwiththememristorRecurrentNeuralNetwork(RNN).Ahardwareimplementationschemebasedonamemristorrecurrentneuralnetworkisproposedtorealizethehardwareaccelera
6、tionofthemodel,whichcalledHierarchicalVariationalAutoEncoderMemristorNeuralNetworks(HVAE-MHN).Computersimulationexperimentsandresultanalysisverifythevalidityandsuperiorityoftheproposedmodel.Key words:VariationalAutoEncoder(VAE);Memristor;Memristorrecurrentnetwork;Textgeneration1 引言变分自编码器(Variational
7、AutoEncoder,VAE1)和其他深度生成模型,如生成对抗网络2和自回归模型3等,都可以从复杂且高维的未标记数据中学习到相应的信息。其中VAE广泛应用于图像处理4,5和自然语言处理任务69。然而,VAE在优化过程中常常会出现后验崩溃,又称为KL散度(KullbackLeiblerDivergence,KLD)消失10,即在生成过程中,模型忽略变分自编码器的潜在变量信息,退化为一个自编码模型。由于循环神经网络(RecurrentNeuralNetwork,RNN)自身的强自回归性,使得基于循环神经网络的变分自编码器更容易出现这种现象。针对这一问题,研究人员陆续提出多种解决方案1012。在最
8、近的研究中,Shen等人13利用多层卷积神经网络替代收稿日期:2021-12-06;改回日期:2022-03-03;网络出版:2022-03-12*通信作者:胡小方基金项目:国家自然科学基金(61976246),重庆市自然科学基金(cstc2020jcyj-msxmX0385)FoundationItems:TheNationalNaturalScienceFoundationofChina(61976246),TheNaturalScienceFoundationofChongqing(cstc2020jcyj-msxmX0385)第45卷第2期电子与信息学报Vol.45No.22023年2
9、月JournalofElectronics&InformationTechnologyFeb.2023编码器并用循环网络作为解码器;Hao等人14使用循环模拟退火方法来缓解KL散度消失;He等人15提出一个滞后推理网络,在解码器更新之前多次更新编码器,从动力学的角度避免该问题;Zhu等人16将批量归一化(BatchNormalization,BN)正则应用于VAE的近似后验概率的参数中,确保KL值为正值;Li等人17对编码器中的隐变量施加KL正则,缓解后验崩溃的问题;Pang等人18提出一种新的推理方法,在VAE模型的后验分布的指导下运行一定次数的朗之万动力学(Langevindynamics
10、)算法,从而有效避免模型崩溃的问题。然而,这些模型大多集中于缓解VAE后验崩溃的问题,而忽略了模型预测性能。RNN是一种广泛研究的具有信息反馈的神经网络模型,与前馈神经网络相比,RNN融合了时间序列的概念,保持了对时间序列的长期依赖性,并且对时间序列场景具有良好的建模能力,然而,在文本生成过程中,当文本序列过长时,RNN模型会发生梯度消失的现象。为解决这个问题,提出长短期记忆神经网络(LongShort-TermMemory,LSTM),LSTM通过控制模型内部的遗忘门在一定程度上抑制RNN模型的梯度消失的问题,并在较长时间内保持了信息依赖性。随着LSTM模型的发展,其显著增加的复杂度和不断增
11、长的参数量,使得基于互补金属氧化物半导体(ComplementaryMetalOxideSemiconductor,CMOS)器件实现的LSTM网络,在计算方面表现出一些不足之处。忆阻器是一种二端口“记忆电阻”,能够在存储信息的地方进行计算,这种存算一体化的特点减少了存储和计算之间传输数据的需求。与传统的基于CMOS器件的实现方案相比,基于忆阻器的人工神经网络具有体积小、功耗低、集成度高等特点。忆阻器已经被应用于许多人工神经网络硬件部署,包括单层或多层神经网络19、卷积神经网络(Con-volutionalNeuralNetworks,CNN)20和LSTM21等。其中,Adam等人22提出了
12、一种用于时间序列预测的忆阻LSTM;Gokmen等人23将LSTM功能模块映射到忆阻交叉阵列中,并探索了器件缺陷对模型性能的影响;Li等人24展示了LSTM网络核心模块的忆阻器硬件实现,并采用两个1T1M的方式来表示正负权值;Liu等人25在LSTM的硬件实现上提出一种新的权值更新方案,实现在线训练,并对忆阻器的电导值实现并行更新。本文针对VAE后验崩溃的问题,提出一种新的变分自编码器模型,称为层次化状态正则变分自编码器(HierarchicalStatusRegularisationVaria-tionalAutoEncoder,HSR-VAE)。HSR-VAE不但可以有效缓解后验崩溃的问题
13、,且较于基线模型,拥有更好的文本生成质量。与现有的变分自编码器仅在最后的时间步状态下施加KL正则17,或者仅仅是通过分层的思想对隐藏状态矩阵进行细化处理26不同,HSR-VAE在层次化状态方法的基础上引入时间步状态正则的方法,通过层次化方法对隐藏状态矩阵进行细化处理,并且对各个时间步的隐藏细化状态值施加KL正则,两种方法的结合可以有效缓解VAE的后验崩溃问题,明显提升模型预测能力。同时,为提高HSR-VAE模型的计算效率,本文在忆阻循环网络的基础上,将HSR-VAE部署在忆阻交叉阵列中,提出HSR-VAE的硬件加速方案,即层次化变分自编码忆阻神经网络(Hie-rarchicalVariatio
14、nalAutoEncoderMemristorNeuralNetworks,HVAE-MNN)。通过忆阻器存算一体的特性,明显提升HSR-VAE模型的计算效率。为了证明本文方法的有效性,本文加入一些强基线模型进行对比,并基于4个公共数据集,分别在语言模型和对话响应生成任务上进行实验对比。语言模型任务中,HSR-VAE可有效缓解后验崩溃,且在定量分析负对数似然(NegativeLogLikeli-hood,NLL)和困惑度(PerPlexityLoss,PPL)的平均实验结果表明,较于基线模型,NLL值降低6,PPL值降低5.9,KL值提高5.6;对话响应生成任务中,多样性评估指标Intra-d
15、ist1和Inter-dist1分别提升5.6%和20.4%。综上所述,本文贡献如下:(1)提出一种新的变分自编码器模型HSR-VAE,有效缓解变分自编码器后验崩溃的问题。(2)提出一种层次化状态正则的方法。在层次化状态的基础之上引入时间步状态正则的方法,明显提升模型预测性能。(3)设计一种基于忆阻循环神经网络的变分自编码器硬件实现方案HVAE-MNN,为变分自编码器的硬件加速提供一种新的思考。2 层次化状态正则变分自编码器2.1 变分自编码器X=xiNi=1P(z)zP(xi|z)xizP(xi|z)P(xi|z)Q(z|xi)P(xi|z)变分自编码器是一种基于隐空间的生成模型,旨在通过解
16、码隐变量生成相应数据。对于数据集,VAE生成过程如下:(1)通过先验分布采样出模型隐变量(2),通过后验分布生成数据。由于生成隐变量 需要计算后验分布,但后验分布难以直接计算,所以VAE模型构造来近似真实后验分布。VAE模型的损失函数是带正则项的负对数似然函数,损失函数为690电子与信息学报第45卷li(,)=Ezp(z|xi)logQ(xi|z)+KL(p(z|xi)|p(z)(1)z其中,第1项是重构损失,目的是让生成数据和原始数据尽可能相近,第2项KL散度是正则项,它衡量了两个分布的近似程度。基本的VAE-RNN模型遵循式(1)。由于编码器是RNN,所以隐变量 是在最后一个时间步的隐藏状态值中采样得到的,将该隐变量作为解码器的输入。VAE-RNN模型的损失函数为li(,)=Ezp(zT|xi)logQ(xi|zT)+KL(p(zT|xi)|p(zT)(2)TQ(zT|xi)=P(zT)zTxizT其中,总时间步长 即为输入句子的长度。对公式分析可知,在优化过程中,当接近全局最小值时,和即为两个独立变量,因而使得解码器无法从中学习到对应信息,VAE退化为一个自编码器模型,即后验崩溃