基于忆阻循环神经网络的层次化状态正则变分自编码器

资源描述

1、基于忆阻循环神经网络的层次化状态正则变分自编码器胡小方*杨涛(西南大学人工智能学院重庆400715)(类脑计算与智能控制重庆市重点实验室重庆400715)摘要：变分自编码器(VAE)作为一个功能强大的文本生成模型受到越来越多的关注。然而，变分自编码器在优化过程中容易出现后验崩溃，即忽略潜在变量，退化为一个自编码器。针对这个问题，该文提出一种新的变分自编码器模型，通过层次化编码和状态正则方法，可以有效缓解后验崩溃，且相较于基线模型具有更优的文本生成质量。在此基础上，基于纳米级忆阻器，将提出的变分自编码器模型与忆阻循环神经网络(RNN)结合，设计一种基于忆阻循环神经网络的硬件实现方案，即层次化变分

2、自编码忆组神经网络(HVAE-MNN)，探讨模型的硬件加速。计算机仿真实验和结果分析验证了该文模型的有效性与优越性。关键词：变分自编码器；忆阻器；忆阻循环网络；文本生成中图分类号：TN918.3;TN601文献标识码：A文章编号：1009-5896(2023)02-0689-09DOI:10.11999/JEIT211431Hierarchical State Regularization Variational AutoEncoderBased on Memristor Recurrent Neural NetworkHUXiaofangYANGTao(College of Artifici

3、al Intelligence,Southwest University,Chongqing 400715,China)(Brain-inspired Computing&Intelligent Control of Chongqing Key Laboratory,Chongqing 400715,China)Abstract:Asapowerfultextgenerationmodel,theVariationalAutoEncoder(VAE)hasattractedmoreandmoreattention.However,intheprocessofoptimization,theva

4、riationalauto-encodertendstoignorethepotentialvariablesanddegeneratesintoanauto-encoder,calledaposterioricollapse.Anewvariationalauto-encodermodelisproposedinthispaper,calledHierarchicalStatusRegularisationVariationalAutoEncoder(HSR-VAE),whichcaneffectivelyalleviatetheproblemofposteriorcollapsethrou

5、ghhierarchicalcodingandstateregularizationandhasbettermodelperformancethanthebaselinemodel.Onthisbasis,basedonthenanometermemristor,themodeliscombinedwiththememristorRecurrentNeuralNetwork(RNN).Ahardwareimplementationschemebasedonamemristorrecurrentneuralnetworkisproposedtorealizethehardwareaccelera

6、tionofthemodel,whichcalledHierarchicalVariationalAutoEncoderMemristorNeuralNetworks(HVAE-MHN).Computersimulationexperimentsandresultanalysisverifythevalidityandsuperiorityoftheproposedmodel.Key words:VariationalAutoEncoder(VAE);Memristor;Memristorrecurrentnetwork;Textgeneration1 引言变分自编码器(Variational

7、AutoEncoder,VAE1)和其他深度生成模型，如生成对抗网络2和自回归模型3等，都可以从复杂且高维的未标记数据中学习到相应的信息。其中VAE广泛应用于图像处理4,5和自然语言处理任务69。然而，VAE在优化过程中常常会出现后验崩溃，又称为KL散度(KullbackLeiblerDivergence,KLD)消失10，即在生成过程中，模型忽略变分自编码器的潜在变量信息，退化为一个自编码模型。由于循环神经网络(RecurrentNeuralNetwork,RNN)自身的强自回归性，使得基于循环神经网络的变分自编码器更容易出现这种现象。针对这一问题，研究人员陆续提出多种解决方案1012。在最

8、近的研究中，Shen等人13利用多层卷积神经网络替代收稿日期：2021-12-06；改回日期：2022-03-03；网络出版：2022-03-12*通信作者：胡小方基金项目：国家自然科学基金(61976246)，重庆市自然科学基金(cstc2020jcyj-msxmX0385)FoundationItems:TheNationalNaturalScienceFoundationofChina(61976246),TheNaturalScienceFoundationofChongqing(cstc2020jcyj-msxmX0385)第45卷第2期电子与信息学报Vol.45No.22023年2

9、月JournalofElectronics&InformationTechnologyFeb.2023编码器并用循环网络作为解码器；Hao等人14使用循环模拟退火方法来缓解KL散度消失；He等人15提出一个滞后推理网络，在解码器更新之前多次更新编码器，从动力学的角度避免该问题；Zhu等人16将批量归一化(BatchNormalization,BN)正则应用于VAE的近似后验概率的参数中，确保KL值为正值；Li等人17对编码器中的隐变量施加KL正则，缓解后验崩溃的问题；Pang等人18提出一种新的推理方法，在VAE模型的后验分布的指导下运行一定次数的朗之万动力学(Langevindynamics

10、)算法，从而有效避免模型崩溃的问题。然而，这些模型大多集中于缓解VAE后验崩溃的问题，而忽略了模型预测性能。RNN是一种广泛研究的具有信息反馈的神经网络模型，与前馈神经网络相比，RNN融合了时间序列的概念，保持了对时间序列的长期依赖性，并且对时间序列场景具有良好的建模能力，然而，在文本生成过程中，当文本序列过长时，RNN模型会发生梯度消失的现象。为解决这个问题，提出长短期记忆神经网络(LongShort-TermMemory,LSTM)，LSTM通过控制模型内部的遗忘门在一定程度上抑制RNN模型的梯度消失的问题，并在较长时间内保持了信息依赖性。随着LSTM模型的发展，其显著增加的复杂度和不断增

11、长的参数量，使得基于互补金属氧化物半导体(ComplementaryMetalOxideSemiconductor,CMOS)器件实现的LSTM网络，在计算方面表现出一些不足之处。忆阻器是一种二端口“记忆电阻”，能够在存储信息的地方进行计算，这种存算一体化的特点减少了存储和计算之间传输数据的需求。与传统的基于CMOS器件的实现方案相比，基于忆阻器的人工神经网络具有体积小、功耗低、集成度高等特点。忆阻器已经被应用于许多人工神经网络硬件部署，包括单层或多层神经网络19、卷积神经网络(Con-volutionalNeuralNetworks,CNN)20和LSTM21等。其中，Adam等人22提出了

12、一种用于时间序列预测的忆阻LSTM；Gokmen等人23将LSTM功能模块映射到忆阻交叉阵列中，并探索了器件缺陷对模型性能的影响；Li等人24展示了LSTM网络核心模块的忆阻器硬件实现，并采用两个1T1M的方式来表示正负权值；Liu等人25在LSTM的硬件实现上提出一种新的权值更新方案，实现在线训练，并对忆阻器的电导值实现并行更新。本文针对VAE后验崩溃的问题，提出一种新的变分自编码器模型，称为层次化状态正则变分自编码器(HierarchicalStatusRegularisationVaria-tionalAutoEncoder,HSR-VAE)。HSR-VAE不但可以有效缓解后验崩溃的问题

13、，且较于基线模型，拥有更好的文本生成质量。与现有的变分自编码器仅在最后的时间步状态下施加KL正则17，或者仅仅是通过分层的思想对隐藏状态矩阵进行细化处理26不同，HSR-VAE在层次化状态方法的基础上引入时间步状态正则的方法，通过层次化方法对隐藏状态矩阵进行细化处理，并且对各个时间步的隐藏细化状态值施加KL正则，两种方法的结合可以有效缓解VAE的后验崩溃问题，明显提升模型预测能力。同时，为提高HSR-VAE模型的计算效率，本文在忆阻循环网络的基础上，将HSR-VAE部署在忆阻交叉阵列中，提出HSR-VAE的硬件加速方案，即层次化变分自编码忆阻神经网络(Hie-rarchicalVariatio

14、nalAutoEncoderMemristorNeuralNetworks,HVAE-MNN)。通过忆阻器存算一体的特性，明显提升HSR-VAE模型的计算效率。为了证明本文方法的有效性，本文加入一些强基线模型进行对比，并基于4个公共数据集，分别在语言模型和对话响应生成任务上进行实验对比。语言模型任务中，HSR-VAE可有效缓解后验崩溃，且在定量分析负对数似然(NegativeLogLikeli-hood,NLL)和困惑度(PerPlexityLoss,PPL)的平均实验结果表明，较于基线模型，NLL值降低6，PPL值降低5.9，KL值提高5.6；对话响应生成任务中，多样性评估指标Intra-d

15、ist1和Inter-dist1分别提升5.6%和20.4%。综上所述，本文贡献如下：(1)提出一种新的变分自编码器模型HSR-VAE，有效缓解变分自编码器后验崩溃的问题。(2)提出一种层次化状态正则的方法。在层次化状态的基础之上引入时间步状态正则的方法，明显提升模型预测性能。(3)设计一种基于忆阻循环神经网络的变分自编码器硬件实现方案HVAE-MNN，为变分自编码器的硬件加速提供一种新的思考。2 层次化状态正则变分自编码器2.1 变分自编码器X=xiNi=1P(z)zP(xi|z)xizP(xi|z)P(xi|z)Q(z|xi)P(xi|z)变分自编码器是一种基于隐空间的生成模型，旨在通过解

16、码隐变量生成相应数据。对于数据集，VAE生成过程如下：(1)通过先验分布采样出模型隐变量(2)，通过后验分布生成数据。由于生成隐变量需要计算后验分布，但后验分布难以直接计算，所以VAE模型构造来近似真实后验分布。VAE模型的损失函数是带正则项的负对数似然函数，损失函数为690电子与信息学报第45卷li(,)=Ezp(z|xi)logQ(xi|z)+KL(p(z|xi)|p(z)(1)z其中，第1项是重构损失，目的是让生成数据和原始数据尽可能相近，第2项KL散度是正则项，它衡量了两个分布的近似程度。基本的VAE-RNN模型遵循式(1)。由于编码器是RNN，所以隐变量是在最后一个时间步的隐藏状态值中采样得到的，将该隐变量作为解码器的输入。VAE-RNN模型的损失函数为li(,)=Ezp(zT|xi)logQ(xi|zT)+KL(p(zT|xi)|p(zT)(2)TQ(zT|xi)=P(zT)zTxizT其中，总时间步长即为输入句子的长度。对公式分析可知，在优化过程中，当接近全局最小值时，和即为两个独立变量，因而使得解码器无法从中学习到对应信息，VAE退化为一个自编码器模型，即后验崩溃

展开阅读全文

基于忆阻循环神经网络的层次化状态正则变分自编码器_胡小方.pdf