多注意力机制BERT分类模型及其在电力运维中的应用

资源描述

1、第卷第期重庆邮电大学学报（自然科学版）年月（）：多注意力机制分类模型及其在电力运维中的应用收稿日期：修订日期：通讯作者：胡峰基金项目：国家自然科学基金（）；国家重点研发计划资助项目（，）：（）；（，）王文娟，何晓莲，胡峰，赵伟，钟淘淘（国网重庆市电力公司信息通信分公司调控中心，重庆；重庆邮电大学计算智能重庆市重点实验室，重庆；重庆邮电大学国际合作与交流处，重庆；国网重庆市电力公司信息通信分公司技术发展部，重庆）摘要：为了提高变换网路中双向编码表示（，）在文本分类中的应用效果，针对基于的文本分类模型在注意力机制设计中无法关注文本中重点信息的问题，提出了一种基于多注意

2、力机制的分类模型。对模型框架中后四层的每一层输入向量，设计词向量注意力机制，捕捉向量表中每一个词的重要性；对得到的模型框架中后四层，设计层向量注意力机制，将这四层上由自适应权重计算得到的每一层输出向量进行融合，获得最终的模型输出向量，更好地提升模型的特征抽取能力。在公开数据集和上的实验表明，提出的模型相较于其他基线模型性能有明显提升。在电力系统运维项目管理的实际应用中，该模型也取得了比基线模型更好的效果，较好地解决了电力运维规模预测混乱问题。关键词：分类；多注意力机制；电力运维系统；特征抽取中图分类号：文献标志码：文章编号：（），（，；，；，；，）：，：；引言随着深度学习技术在诸

3、多实际应用领域的繁荣发展，它也被迅速广泛地用于自然语言处理技术，并且在许多实际场景中取得了很好的应用效果。在信息处理中，文本有向量空间模型、语义网络、框架模型等表示方法，基于深度学习的自然语言处理任务，采用端到端的方式，有效取代了手工获取文本特征的方法。其中常用的网络有卷积神经网络（，）、长短期记忆网络（，）及它们的各种变体，这些网络作为特征抽取器，各自有不同的优缺点。而模型的出现，进一步提升了自然语言处理任务的能力，并且在不同自然语言处理任务上的性能均有提升，如文本分类，文本摘要和文本匹配等。使用了变换网路模型结构中的编码模块，并由预训练和微调两阶段任务构成，在海量语料上训练完之后，便可

4、以将其应用到自然语言处理的各个任务中。电力运维管理系统是电力服务系统中的关键一环，能够保证服务系统的安全稳定可靠运行。通过运维项目内容对运维人数进行预测，能够提升电力服务系统的质量，避免造成服务中的运维人员不足或冗余。然而运维项目文本中与运维人数规模相关的文本都是短文本，传统基于的文本分类方法不能较好地关注文本中的重要信息，为此本文提出了一种基于多注意力机制模型（，），将模型中的后四层与注意力机制相结合从而模型效果更好。首先，设计了词向量注意力机制，对后四层中每一层输入向量的不同词给予权重设计，获得不同词的重要性；其次，设计了层向量注意力机制，在得到每层的输出向量表示后，分别对每层输出向

5、量进行自适应加权；最后，对四层加权后的向量进行融合，以此来提升模型的特征抽取能力。在、数据集和电力运维数据集上进行的实验表明，本文模型的结果优于其他基线模型。相关理论注意力机制注意力机制源于对人类视觉的研究，目前在图像领域、自然语言处理领域等得到了长足发展。其本质思想如图所示。首先，输入某个元素的查询；其次，计算每个查询和每个键之间的相似性或相关性，从而得到每个键对应值的权重系数；最后对值进行加权求和，即得到了最终的注意力值。文献将循环神经网络（，）模型与注意力机制结合，提升了图像分类精度；文献将注意力机制应用到自然语言处理领域中，提升了机器翻译效果；文献提出的自注意力机制更是取得了进一

6、步的突破。图注意力机制示意图变换网路模型变换网路模型以自注意力机制为基础单元并只依赖注意力机制，与大多数模型一样，其结构也是由编码器和解码器组成，如图所示。编码器负责把输入序列进行位置编码后映射为隐藏层，然后解码器再把隐藏层映射为输出序列。编码器的第部分将输入的数据转换为向量，通过位置编码后将其输入到多头注意力；第部分的多头注意力能够获取数据内部之间的相关性；第部分是残差连接和标准化，能够较好地提高模型的学习能力；第部分则通过由两个全连接层组成的前向反馈层，将学习得到的数据进行非线性映射。相比于模型，变换网路模型能够进行并行计算，提高运行速度；而相对于模型，其又能够获取位置

7、信息，因此，变换网路模型在自然语言处理任务第期王文娟，等：多注意力机制分类模型及其在电力运维中的应用中得到了广泛应用。模型模型采用了变换网路模型结构的编码器模块，如图所示。变换网路模型是自然语言处理领域的代表模型之一，由一些块组成，每个块由一个注意力层以及一个应用在每个输入元素的非线性函数组成。模型由预训练和微调两阶段任务构成，其中在预训练阶段通过个任务进行训练，掩码预测和预测下一句。掩码预测随机遮蔽一句话中的几个词，然后根据剩余的词对遮蔽的词进行预测。预测下一句判断文章中的第句话是否是在第句话之后。通过对这个任务进行联合训练，从而使拥有更强、更全面的学习泛化能力。模型的输

8、入主要包含字嵌入、分割嵌入和位置嵌入部分，将这部分相加后传入模型，而模型输出会根据任务的不同略有差别。图变换网路模型图模型示意图重庆邮电大学学报（自然科学版）第卷本文模型结构为了更准确地提取语义信息，解决在电力运维项目管理中运维人员规模申报混乱的问题，本文提出了一种基于多注意力机制的预测模型。该模型针对模型进行了改进，将模型中变换网路编码器的最后四层进行拼接，设计出不同角度的注意力机制融合。一方面，针对模型中变换网路编码器最后四层的词向量与注意力机制的融合，设计出词向量注意力机制；另一方面，针对模型中变换网路编码器最后四层的层向量与注意力机制的融合，

9、设计出层向量注意力机制；从而获得文本中更准确和全面的信息语义，提高电力运维人数的预测效果。词向量注意力机制模型的输入由字嵌入、位置嵌入和分割嵌入部分组成，这部分进行组合后，得到生成向量，作为模型的输入。假设原始文本输入为，经过上述部分处理后，输入向量表示为（）（）（），（）（）式中：表示第个文本数据；表示经向量化处理后得到的向量表示；表示进行字嵌入处理；表示进行位置嵌入处理。本模型针对结构中的最后四层进行了注意力机制融合设置，称为词注意力机制。将最后四层中每一层输入向量的每个词与注意力机制相结合。在模型中，每个输入的短文本句子首部都会加上“”；由“”所对应的维向量即可视为整

10、个短文本的代表，作为文本的输入数据；再对输入数据进行字嵌入、分割嵌入和位置嵌入的种处理，获得种不同向量。对上述个向量进行融合得到最终的模型的输入向量，。模型的构成元素是变换网路。其中使用了层变换网路块，使用了层变换网路块。本文词向量注意力机制如图所示。若模型共有层，则其最后四层表示为变换网路编码器第至第层。在向量输入至模型后，第层向量表示为，经过模型中间层处理后，第层向量表示为，。不同于第层，该层结合了注意力机制用于得到该层最终的输出向量表示。在第层的训练过程中，对于输入的“”所对应的向量中的第个词向量赋

11、予不同权重，以便得到不同词的重要性，词向量注意力机制的权重公式为（）（），（）（）式中：表示权重系数；表示当前变换网路块的层数。图词向量注意力机制示意图在得到每个词向量的权重系数后，将每个词向量与各自的权重值相乘，进行汇总得到最终向量为（）层向量注意力机制所获得的融合了词注意力机制的每一层向量，不能仅仅依赖于“”对应的句子向量，还要充分考虑整个短文本中句子的详细信息。为了使获得第期王文娟，等：多注意力机制分类模型及其在电力运维中的应用的原始文本信息更加丰富，本模型对最后四层的向量采用了结合注意力机制的融合方式，称为层向量注意力机制，其结构如图所示。这个过程对每一层的输出向量设计

12、自适应的注意力权重为（）（），（）通过为最后四层的每一层赋予不同权重后，将最后四层经过加权计算后的向量进行融合得到输出向量，即，（）最终得到的向量将为模型下游任务文本分类模型的输入，通过对文本分类模型的参数微调即可获得所对应的分类结果。本文针对模型中词向量和层向量分别进行注意力机制融合设置，在模型的训练中能够捕捉到更加全面丰富的文本语义信息。图层注意力机制示意图实验为了验证本文模型的预测效果，在公开的和数据集以及实际的电力运维项目数据集上分别进行实验。实验数据集数据集来自互联网电影资料库（，），其中包含条严重两极分化的评论，可将其视为文本的二分类问题，其格式如表所示

13、。表数据集序号评价内容标签数据集根据新浪新闻订阅频道年间的历史数据筛选过滤生成，包含万篇新闻文档，分个候选分类类别，可将其视为文本的多分类问题，本文从中随机选取条数据用作实验。数据集格式如表所示。表数据集序号新闻文本内容标签台湾电联赛报道第场战况报道台湾电竞联盟台白色灯具既明亮又很温馨，在灯具的选择时，如果想既明亮又很温馨马晓旭意外受伤让国奥警惕无奈大雨格外青睐殷电力运维服务数据集通过收集得到，其中主要包括运维规模、运维人数分类等类别。为预测电力运维人员规模，便于资源调度和项目安排，将运维人数划分为人以下、人、人及以上个类重庆邮电大学学报（自然科

14、学版）第卷别。实验收集的电力运维项目书共条，数据格式及内容如表所示。表电力运维服务数据集序号运维规模内容运维人数运维人数等级重庆市电力公司本部、家地市供电企业、家业务支撑实施单位约万名用户系统为二级部署，本地有台服务器。项目提供运维服务的对象为全市用户，用户数人台服务器为项目提供支持实验设置本文对比了、等基线模型。词向量维度为，共包含个词；使用的卷积核数为，值设置为，优化器使用，学习率为；隐层维度设置为，值设置为，优化器使用，学习率为；长度为，优化器采用，学习率为。评价方法本实验使用的数据集包括、数据集和电力数据集，分别为二分类和多分类问题，根据真实类别和预测类别可以划分

15、为真正例（）、假正例（）、假负例（），并依次计算精确率（预测样本数与实际预测样本数之比）、召回率（正确预测样本数与应该预测样本数之比）、精确率和召回率调和均值的值，针对多分类问题使用宏查准率（）、宏查全率（）、宏值（）进行评估，计算公式为（）（）（）（）（）（）实验模型本文所对比的基线模型如下。）：采用卷积神经网络（）作为文本的特征抽取器，从而进行文本分类。）：采用长短期记忆网络（）作为文本的特征抽取器，从而进行文本分类。）：是文本分类中的经典模型，采用不同大小的卷积核，利用来提取句子中类似的关键信息。）：使用进行预训练，获取文本向量表示，将文本分类视为下游任务进行微调。）：基于和

16、的多通道注意力机制文本分类模型（），主要思想是用多通道注意力机制（）提取和输出信息的注意力分值，将多通道注意力机制的输出信息进行融合，从而实现文本分类。实验及分析公开数据集实验在数据集上的实验属于文本二分类任务，实验结果如表所示。表数据集实验结果模型本文模型在数据集上的实验属于文本多分类任务，共有个类别，实验结果如表所示。表数据集实验结果模型本文模型第期王文娟，等：多注意力机制分类模型及其在电力运维中的应用由表表表可见，对于文本分类已经取得了不错的效果，而模型的结果表现更好。从模型的原理分析，、和都以为词向量，无法解决歧义词问题，不能动态调整词向量；而模型较好地解决了这个问题，所以在实验效果上明显优于这个模型。相比而言，模型设计了一种从和网络中提取输出信息的注意力分值的机制，其效果也略好于模型。本文提出的基于多注意机制分类模型在原始模型的基础上引入了注意力机制，设计了相应的词向量和层向量的权值调整方式，能够从文本中捕捉到更加全面准确的特征向量表示。从表表可以看出，本文模型的效果优于所有基线模型。电力数据集实验在电力数据集上的实验属

展开阅读全文

多注意力机制BERT分类模型及其在电力运维中的应用_王文娟.pdf