基于预训练模型和多视角循环神经网络的电力文本匹配模型.pdf

资源描述

1、第卷第期重庆邮电大学学报(自然科学版).年月 ().:./.基于预训练模型和多视角循环神经网络的电力文本匹配模型收稿日期:修订日期:通讯作者:赵伟 .基金项目:国家自然科学基金()国家重点研发计划资助项目():()()赵伟王文娟甘玉芳(.重庆邮电大学国际合作与交流处重庆.国网重庆市电力公司信息通信分公司调控中心重庆.国网重庆市电力公司信息通信分公司技术发展部重庆)摘要:针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题提出基于预训练模型及多视角循环神经网络的文本匹配模型通过方法对输出的句向量进行线性变换优化并利用多视角循环神经网络将两句子不同位置的动态词向量

2、进行双向交互计算将句向量与词粒度交互向量进行融合后计算结果实验结果表明提出的模型相较于对比模型有明显性能提升实用性良好关键词:预训练模型多视角循环神经网络模型文本匹配电力运维系统中图分类号:文献标志码:文章编号:()(.):.:引言文本匹配的主要目标是正确判断两段自然语言形式的文本的语义是否相关自动问答、信息检索、人机对话、问题复述等各类自然语言处理任务均可抽象为该问题文本匹配技术在电力领域具有重要应用价值随着电力业务种类及规模不断增长电力运维系统日益复杂对电力运维业务的效率要求也随之大幅提升运维人员受理运维问题时可利用文本匹配技术从专业知识库中根据运维请求检索出解决方案快速应对运维

3、问题运维项目管理者可以利用文本匹配技术来对运维服务项目进行项目匹配计算避免运维项目重复立项等问题从而提升运维服务精益化管理水平神经网络模型目前已成为文本匹配领域的主要模型其中基于网络架构的模型使用相同的神经网络(如或)对两个句子进行编码然后基于编码向量表示来计算语义匹配度为了更好地关注到体现句子含义的单词有研究还将注意力机制引入到模型结构中取得了较好的效果上述研究由于在编码过程中两个句子没有进行交互而单个向量往往不能很好地表示句子语义因而某些匹配信息可能被忽略为解决这类模型存在的问题一些研究采用基于比较聚合架构的模型来进行文本匹配这类模型通过比较词、短语、句子等不同级别的向量表示

4、再聚合比较结果来进行文本匹配例如文献在词粒度级别上提出匹配模型文献提出一种词对交互模型该模型首先从两个序列中抽取词语对再使用相似性焦点层和多层聚合这些单词比较的结果尽管这些研究取得了良好的进展然而还存在以下问题)多数模型采用或词向量作为网络模型的输入同一个词在不同上下文语境下的词向量是固定的无法体现词向量表示的动态性然而单词的含义与其所处的语义环境密不可分例如“这个苹果很好吃”和“苹果的摄像头不错”这两句话中“苹果”的含义就大相径庭前一句话中“苹果”指的是一种水果后一句话指的是智能手机因此要准确进行文本匹配就必须考虑单词的上下文)部分模型只关注了单个句子的注意力加权而忽略了两个

5、句子之间的交互还有部分模型虽然考虑了句子间的交互但对句子间的交互建模得不够充分未能融合不同粒度的交互信息从而导致丢失某些重要匹配信息针对以上问题本文提出了基于预训练模型和多视角循环神经网络的文本匹配模型该模型利用获取句子表示向量并应用方法来对句向量进行线性转换获得优化的句向量表示利用获取句子中词汇的上下文词向量表示并应用多视角循环神经网络模型来对句子对进行双向交互最后聚合句向量及词粒度交互向量后得到文本对的语义匹配度在电力运维领域的两个真实数据集上通过与多种基于神经网络的文本匹配模型进行实验对比实验结果验证了本文模型在文本匹配任务上的有效性此外本文模型在实际系统的应用中也有效提

6、升了电力运维服务效率相关工作文本匹配任务在语义检索中具有重要作用早期研究主要基于特征工程来找出两句子的匹配关系但特征工程方法不仅人工工作量大还存在泛化性差的问题在一个数据集上使用的特征很可能在另一个数据集上表现不好深度学习方法将特征抽取过程作为模型的一部分直接从原始数据中抽取特征不仅免去了手工设计特征的大量人工开销还可以根据训练数据的不同而将模型方便地适配到各种文本匹配任务当中因此深度学习被广泛应用到文本匹配领域其中以结构为代表的深度学习模型得到很好的发展如微软提出的模型该模型通过全连接网络将查询语句和文档进行向量化表达简单匹配计算速度快是最早的深度文本匹配模型但忽略了文本之间的时

7、序关系和空间关系微软研究院后续提出的将中的全连接神经网络层换为卷积池化结构提升了文本匹配效果文献提出多视角循环神经网络()模型通过获取句子不同位置的表示向量然后将两句子不同位置的表示向量交互计算得到匹配矩阵最后通过最大池化和全连接网络得到匹配值除了基于结构的序列匹配模型外基于比较聚合的匹配模型也受到了关注这类模型通过捕捉两个序列之间更多的交互特征来进行文本匹配如基于问题和答案的向量序列得到重庆邮电大学学报(自然科学版)第卷交互矩阵再将网络作用于交互矩阵并且采用注意力加权方式来获得匹配模型文献采用了一种动态剪辑注意力机制这种机制通过过滤权重较小的词来去除噪

8、声通过改变注意力计算方式提升答案选择的语义匹配模型性能在应用领域中有学者针对通信领域及医疗领域研究了文本匹配任务但目前在电力领域真实数据集上进行的文本匹配研究很少本文在这一领域进行了探索并将本文模型投入实际应用取得了良好的应用效果模型介绍本文提出基于预训练模型及多视角循环神经网络的文本匹配模型模型结构如图所示本模型利用预训练模型获取具有上下文语义的词向量及句向量用方法对句向量进行线性变换操作用模型对词向量计算文本对间的交互向量再对句向量及交互向量进行拼接后得到拼接向量将其送入网络中进行优化然后在输出向量的基础上通过全连接网络和操作得到结果.是在年提出的一个新型网络结构不像

9、只能获取局部信息也不像需要逐步进行信息提取通过自注意力机制能够直接获取文本序列的全局信息可以并行化操作提高训练效率因此被大量地使用在自然语言处理领域中促进了以为代表的大规模预训练语言模型的发展图模型结构图.第期赵伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模型中对句子的多头自注意力计算过程如()()式所示()()()()()()()()式中:表示操作表示操作、分别表示句子的查询向量、键向量、值向量所组成的矩阵参数矩阵表示向量拼接表示最终的多头注意力输出向量通过使用结构的编码器模块并应用掩蔽语言模型和下一句预测两个无监督预测任务进行预训练能在大规模无监督

10、语料上训练获得强大的文本表征能力并获得词在不同语境下的含义为了获得词在不同语境下的含义本文模型先使用对文本中的词汇进行嵌入表述再得到句子序列的向量表示对某一句子序列而言本文获取词向量过程为 ()()()式中:表示模型编码操作表示句子中的一个单词表示句子开头字符该标志对应的输出向量将作为整个句子的语义表示表示模型识别句子的边界根据输入获得输出为 ()()式中表示每个词的上下文相关词向量由多个的编码器层组成其结构如图所示图模型结构图.图中表示每一层的由一个多头自注意力子层和一个全连接前馈神经网络子层组成并在这两个子层中加入残差连接和层标准化计算.方法预训练模型在自然语言处

11、理中取得了巨大的成功然而直接使用模型中标记对应向量的句向量难以捕捉到句子的语义在文本相似度任务中表现不好为了获得更好的句子向量表示本文采用方法来对模型输出的进行线性转换获得优化的句子向量表示句子向量间传统的余弦相似度值计算公式为()()方法认为句向量用余弦相似度值来计算句子相似度时表现不好可能是由于句向量所属的坐标系并非标准正交基因而需要对原始的句子向量进行转换以强制使其具有各向同性考虑到标准正态分布的各向同性特性而且标准正态分布均值为、协方差矩阵为单位矩阵因此设句向量集合为方法将句向量矩阵进行线性变换使变换后的句向量矩阵的均值为、协方差矩阵为单位阵线性变换公式为 ()()

12、的求解公式为 ()为了求矩阵将的原始协方差矩阵表示为 ()()()则可以得到转换后的协方差矩阵为 ()新的协方差矩阵是单位矩阵因而有 ()进而有 ()()()协方差矩阵是一个正定对称矩阵满足分解为 ()重庆邮电大学学报(自然科学版)第卷()式中:是一个正交矩阵是一个对角矩阵对角线元素均为正因此令可得 ()方法的算法流程如算法所示算法算法输入:句向量集合.计算的和.计算().计算().().输出:转换后的句向量集合.双向交互计算对于文本匹配这样的序列匹配问题之前的工作常常将两个待匹配的序列通过同种网络编码为两个向量再依据这两个向量计算匹配度但这种方式在整个编码过

13、程中两个句子没有明确的交互为避免这一问题本文采用模型来将两个句子在词粒度上对句子对间不同位置的交互进行建模根据模型在序列匹配任务上的输入格式将某一句子首尾分别加上和后拼接为一个序列再将序列中的每个单词分别编码为词向量、段向量和位置向量输入进行编码则输出的序列对应于句子的表示序列将单词对应的向量表示作为某一时刻的输入输入到网络中则单元得到词汇向量新表示的计算公式为()()()()()()()()()()()()()式中:表示遗忘门是函数和分别是当前时刻输入和上一时刻隐藏状态、和是学习的权重矩阵、和为偏置值为输入门将词向量矩阵 ()输入到网络中则隐藏层的输出为()

14、()()()()()()式中为每一时刻前向的隐藏层输出和后向的隐藏层输出的拼接给定两个向量和分别表示两个句子在双向中某一位置的输出向量计算交互张量为():()()式中:是交互计算后得到的张量:是张量参数的一个切片和是线性计算部分的参数是一个非线性函数计算式为()()()两个句子之间的匹配通常由一些强交互信号决定使用最大池化操作来提取张量中每个切片的前个值以形成向量这些向量进一步连接到单个向量来作为两个序列间的交互向量.层将两条句子和通过输出的句子向量经过方法转换后得到的句向量和再与句子对间通过获得的交互向量拼接后形成向量然后输入到网络中进行处理拼接

15、计算式为 :()网络作为一种具有可学习门限机制的结构可以在很大程度上缓解深层次网络训练困难的问题受门结构理念的启发网络设计了转换门和携带门通过这两个门来控制信息流可以基于梯度的方法快速训练深层网络对输入向量进行合适的特征变换从而提升效果对于向量转换门值()和携带门值()的计算式为()()()()()()()()式中:是非线性函数是权重矩阵是偏移向量输出向量计算式为 ()()()()()式中为非线性函数.输出结果将输出向量输入到全连接神经网络然后通过函数输出归一化后的各类别的概率分布得到最终分类结果即 ()()第期赵伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模

16、型()式中:表示参数矩阵为偏置.损失函数本文通过最小化交叉熵损失函数对模型参数进行更新即 ()()()()()式中:表示真实匹配值表示模型预测的匹配值表示模型训练样本总数实验.实验数据集本文实验所用数据集来源于电力系统包括两个数据集第一个数据集是运维项目数据集该数据集从某省电力运维服务项目管理系统中采集而来通过对系统中年运维服务项目的项目摘要文本进行整理后得到条样本其中每条样本包含一对数据通过人工方式进行标注条相似文本对样本标签设为条非相似文本对样本标签设为另一个数据集为相似问句数据集来源于某省电力运维知识库系统通过采集系统中用户年的检索文本而得并进行了人工标注该数据集包括条样本每条样本由一对问句组成如果为相似问句则标注为否则为数据集中相似问句对样本有条两个数据集的详细信息如表所示表数据集概况.运维项目数据集相似问句数据集训练集验证集测试集.实验设置本文模型采用提供的中文版预训练模型(:/./.)获取词向量该预训练模型有个层个隐藏层个自注意力头参数文本长度超长截断不足补零采用算法优化模型学习率为值设置为.评价指标本文评价指标

展开阅读全文