1、第 卷第 期重庆邮电大学学报(自然科学版).年 月 ().:./.基于预训练模型和多视角循环神经网络的电力文本匹配模型收稿日期:修订日期:通讯作者:赵 伟 .基金项目:国家自然科学基金()国家重点研发计划资助项目():()()赵 伟王文娟甘玉芳(.重庆邮电大学 国际合作与交流处重庆.国网重庆市电力公司信息通信分公司 调控中心重庆.国网重庆市电力公司信息通信分公司 技术发展部重庆)摘 要:针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题提出基于 预训练模型及多视角循环神经网络的文本匹配模型 通过 方法对 输出的句向量进行线性变换优化并利用多视角循环神经网络将两句子不同位置的 动态词向量
2、进行双向交互计算将句向量与词粒度交互向量进行融合后计算结果 实验结果表明提出的模型相较于对比模型有明显性能提升实用性良好关键词:预训练模型多视角循环神经网络模型文本匹配电力运维系统中图分类号:文献标志码:文章编号:()(.):.:引 言文本匹配的主要目标是正确判断两段自然语言形式的文本的语义是否相关自动问答、信息检索、人机对话、问题复述等各类自然语言处理任务均可抽象为该问题 文本匹配技术在电力领域具有重要应用价值 随着电力业务种类及规模不断增长电力运维系统日益复杂对电力运维业务的效率要求也随之大幅提升 运维人员受理运维问题时可利用文本匹配技术从专业知识库中根据运维请求检索出解决方案快速应对运维
3、问题 运维项目管理者可以利用文本匹配技术来对运维服务项目进行项目匹配计算避免运维项目重复立项等问题从而提升运维服务精益化管理水平神经网络模型目前已成为文本匹配领域的主要模型 其中基于 网络架构的模型使用相同的神经网络(如 或)对两个句子进行编码然后基于编码向量表示来计算语义匹配度 为了更好地关注到体现句子含义的单词有研究还将注意力机制引入到模型结构中取得了较好的效果 上述研究由于在编码过程中两个句子没有进行交互而单个向量往往不能很好地表示句子语义因而某些匹配信息可能被忽略 为解决这类模型存在的问题一些研究采用基于比较聚合架构的模型来进行文本匹配这类模型通过比较词、短语、句子等不同级别的向量表示
4、再聚合比较结果来进行文本匹配 例如文献在词粒度级别上提出 匹配模型文献提出一种词对交互模型该模型首先从两个序列中抽取词语对再使用相似性焦点层和多层 聚合这些单词比较的结果尽管这些研究取得了良好的进展然而还存在以下问题)多数模型采用 或 词向量作为网络模型的输入同一个词在不同上下文语境下的词向量是固定的无法体现词向量表示的动态性 然而单词的含义与其所处的语义环境密不可分例如“这个苹果很好吃”和“苹果 的摄像头不错”这两句话中“苹果”的含义就大相径庭前一句话中“苹果”指的是一种水果后一句话指的是智能手机 因此要准确进行文本匹配就必须考虑单词的上下文)部分模型只关注了单个句子的注意力加权而忽略了两个
5、句子之间的交互还有部分模型虽然考虑了句子间的交互但对句子间的交互建模得不够充分未能融合不同粒度的交互信息从而导致丢失某些重要匹配信息针对以上问题本文提出了基于 预训练模型和多视角循环神经网络的文本匹配模型 该模型利用 获取句子表示向量并应用 方法来对句向量进行线性转换获得优化的句向量表示利用 获取句子中词汇的上下文词向量表示并应用多视角循环神经网络模型来对句子对进行双向交互最后聚合 句向量及词粒度交互向量后得到文本对的语义匹配度 在电力运维领域的两个真实数据集上通过与多种基于神经网络的文本匹配模型进行实验对比实验结果验证了本文模型在文本匹配任务上的有效性 此外本文模型在实际系统的应用中也有效提
6、升了电力运维服务效率 相关工作文本匹配任务在语义检索中具有重要作用早期研究主要基于特征工程来找出两句子的匹配关系 但特征工程方法不仅人工工作量大还存在泛化性差的问题在一个数据集上使用的特征很可能在另一个数据集上表现不好深度学习方法将特征抽取过程作为模型的一部分直接从原始数据中抽取特征不仅免去了手工设计特征的大量人工开销还可以根据训练数据的不同而将模型方便地适配到各种文本匹配任务当中因此深度学习被广泛应用到文本匹配领域 其中以 结构为代表的深度学习模型得到很好的发展如微软提出的 模型该模型通过全连接网络将查询语句和文档进行向量化表达简单匹配计算速度快是最早的深度文本匹配模型但 忽略了文本之间的时
7、序关系和空间关系微软研究院后续提出的 将 中的全连接神经网络层换为卷积池化结构提升了文本匹配效果 文献提出多视角循环神经网络()模型通过 获取句子不同位置的表示向量然后将两句子不同位置的表示向量交互计算得到匹配矩阵最后通过 最大池化和全连接网络得到匹配值除了基于 结构的序列匹配模型外基于比较聚合的匹配模型也受到了关注 这类模型通过捕捉两个序列之间更多的交互特征来进行文本匹配 如 基于问题和答案的向量序列得到 重 庆 邮 电 大 学 学 报(自然科学版)第 卷交互矩阵再将 网络作用于交互矩阵并且采用注意力加权方式来获得匹配模型 文献采用了一种动态剪辑注意力机制这种机制通过过滤权重较小的词来去除噪
8、声通过改变注意力计算方式提升答案选择的语义匹配模型性能在应用领域中有学者针对通信领域及医疗领域研究了文本匹配任务但目前在电力领域真实数据集上进行的文本匹配研究很少本文在这一领域进行了探索并将本文模型投入实际应用取得了良好的应用效果 模型介绍本文提出基于预训练模型及多视角循环神经网络的文本匹配模型模型结构如图 所示 本模型利用 预训练模型获取具有上下文语义的词向量及句向量用 方法对句向量进行线性变换操作用 模型对词向量计算文本对间的交互向量再对句向量及交互向量进行拼接后得到拼接向量将其送入 网络中进行优化然后在输出向量的基础上通过全连接网络和 操作得到结果.是 在 年提出的一个新型网络结构 不像
9、 只能获取局部信息也不像 需要逐步进行信息提取 通过自注意力机制能够直接获取文本序列的全局信息可以并行化操作提高训练效率因此被大量地使用在自然语言处理领域中促进了以 为代表的大规模预训练语言模型的发展图 模型结构图.第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模型 中对句子的多头自注意力计算过程如()()式所示()()()()()()()()式中:表示 操作 表示 操作、分别表示句子的查询向量、键向量、值向量所组成的矩阵参数矩阵 表示向量拼接 表示最终的多头注意力输出向量 通过使用 结构的编码器模块并应用掩蔽语言模型和下一句预测两个无监督预测任务进行预训练能在大规模无监督
10、语料上训练获得强大的文本表征能力并获得词在不同语境下的含义 为了获得词在不同语境下的含义本文模型先使用 对文本中的词汇进行嵌入表述再得到句子序列的向量表示对某一句子序列而言本文获取词向量过程为 ()()()式中:表示 模型编码操作表示句子中的一个单词表示句子开头字符该标志对应的输出向量将作为整个句子的语义表示表示模型识别句子的边界 根据输入获得输出为 ()()式中表示每个词的上下文相关词向量 由多个 的编码器层组成其结构如图 所示图 模型结构图.图 中 表示 每一层的 由一个多头自注意力子层和一个全连接前馈神经网络子层组成并在这两个子层中加入残差连接和层标准化计算.方法 预训练模型在自然语言处
11、理中取得了巨大的成功 然而直接使用 模型中标记对应向量的句向量难以捕捉到句子的语义在文本相似度任务中表现不好 为了获得更好的句子向量表示本文采用 方法来对 模型输出的进行线性转换获得优化的句子向量表示句子向量间传统的余弦相似度值计算公式为()()方法认为 句向量用余弦相似度值来计算句子相似度时表现不好可能是由于句向量所属的坐标系并非标准正交基因而需要对原始的句子向量进行转换以强制使其具有各向同性 考虑到标准正态分布的各向同性特性而且标准正态分布均值为、协方差矩阵为单位矩阵因此设句向量集合为 方法将句向量矩阵进行线性变换使变换后的句向量矩阵 的均值为、协方差矩阵为单位阵 线性变换公式为 ()()
12、的求解公式为 ()为了求矩阵 将的原始协方差矩阵表示为 ()()()则可以得到转换后的协方差矩阵为 ()新的协方差矩阵是单位矩阵因而有 ()进而有 ()()()协方差矩阵 是一个正定对称矩阵满足 分解为 ()重 庆 邮 电 大 学 学 报(自然科学版)第 卷()式中:是一个正交矩阵 是一个对角矩阵对角线元素均为正 因此令 可得 ()方法的算法流程如算法 所示算法 算法输入:句向量集合.计算的 和.计算().计算().().输出:转换后的句向量集合.双向交互计算对于文本匹配这样的序列匹配问题之前的工作常常将两个待匹配的序列通过同种网络编码为两个向量再依据这两个向量计算匹配度但这种方式在整个编码过
13、程中两个句子没有明确的交互为避免这一问题本文采用 模型来将两个句子在词粒度上对句子对间不同位置的交互进行建模根据 模型在序列匹配任务上的输入格式将某一句子首尾分别加上和后拼接为一个序列再将序列中的每个单词分别编码为词向量、段向量和位置向量输入 进行编码则 输出的序列 对应于句子的 表示序列将单词 对应的向量表示 作为某一时刻的输入 输入到 网络中则 单元得到词汇向量新表示的计算公式为()()()()()()()()()()()()()式中:表示遗忘门 是 函数和 分别是当前时刻输入和上一时刻隐藏状态、和 是学习的权重矩阵、和 为偏置值为输入门将词向量矩阵 ()输入到 网络中则隐藏层的输出为()
14、()()()()()()式中为每一时刻前向 的隐藏层输出和后向 的隐藏层输出的拼接给定两个向量 和 分别表示两个句子在双向 中某一位置的输出向量计算交互张量为():()()式中:是交互计算后得到的张量:是张量参数的一个切片和 是线性计算部分的参数 是一个非线性函数计算式为()()()两个句子之间的匹配通常由一些强交互信号决定使用 最大池化操作来提取张量 中每个切片的前 个值以形成向量 这些向量进一步连接到单个向量 来作为两个序列间的交互向量.层将两条句子 和 通过 输出的句子向量经过 方法转换后得到的句向量 和 再与句子对间通过 获得的交互向量 拼接后形成向量 然后输入到 网络中进行处理 拼接
15、计算式为 :()网络作为一种具有可学习门限机制的结构可以在很大程度上缓解深层次网络训练困难的问题 受 门结构理念的启发 网络设计了转换门和携带门通过这两个门来控制信息流可以基于梯度的方法快速训练深层网络对输入向量进行合适的特征变换从而提升效果对于向量 转换门值()和携带门值()的计算式为()()()()()()()()式中:是非线性函数是权重矩阵是偏移向量 输出向量 计算式为 ()()()()()式中 为非线性函数.输出结果将输出向量 输入到全连接神经网络然后通过 函数输出归一化后的各类别的概率分布得到最终分类结果即 ()()第 期 赵 伟等:基于预训练模型和多视角循环神经网络的电力文本匹配模
16、型()式中:表示参数矩阵为偏置.损失函数本文通过最小化交叉熵损失函数对模型参数进行更新即 ()()()()()式中:表示真实匹配值表示模型预测的匹配值 表示模型训练样本总数 实 验.实验数据集本文实验所用数据集来源于电力系统包括两个数据集 第一个数据集是运维项目数据集该数据集从某省电力运维服务项目管理系统中采集而来通过对系统中 年运维服务项目的项目摘要文本进行整理后得到 条样本其中每条样本包含一对数据 通过人工方式进行标注条相似文本对样本标签设为 条非相似文本对样本标签设为 另一个数据集为相似问句数据集来源于某省电力运维知识库系统通过采集系统中用户 年的检索文本而得并进行了人工标注 该数据集包括 条样本每条样本由一对问句组成如果为相似问句则标注为 否则为 数据集中相似问句对样本有 条 两个数据集的详细信息如表 所示表 数据集概况.运维项目数据集相似问句数据集训练集 验证集测试集.实验设置本文模型采用 提供的中文版预训练 模型(:/./.)获取词向量 该预训练模型有 个 层 个隐藏层 个自注意力头参数 文本长度 超长截断不足补零 采用 算法优化模型学习率为 值设置为.评价指标本文评价指标