1、办公自动化杂志0 引言面向开放域的问答系统是自然语言处理和信息检索领域的一个重要研究方向,它接收用户使用自然语言提出的问题,返回简洁、准确的自然语言形式的回答。与传统的搜索引擎相比,问答系统要求返回更精准的回答,而非相关的文本片断。为获得精准的回答,首先需要系统准确地识别用户提问的意图,即识别问句的语义类型,然后在问句类型的约束下进行信息检索与答案抽取。例如,用户提出的问句为:“中国人口最多的城市?”,如果问答系统能识别出用户的意图为获得一个城市名,那么系统只需要从相关文档中抽取出城市名作为候选答案,然后再进行进一步分析。由此可见,问句分类是问答系统的重要组成部分,问句分类技术是问答系统的关键
2、技术之一,提高问句分类的准确率对提高问答系统的性能具有重要意义。目前,关于问句分类的研究主要集中在某些特定领域,如基于事实类问题的问句分类、1面向旅游景点推荐的问句分类等领域;2问句分类方法主要有:基于规则的方法、基于特征工程的方法、基于深度学习的方法,基于端对端的深度学习方法是目前主流的方法。1-5针对开放域的问句分类问题,已有的相关工作但仍存在一些局限:深度学习模型没有对问句的局部关键信息进行显式建模,没有突出开放域问句建模的特殊性;模型可解释性差,模型不能提供有关问句的深入洞察,不能为下游任务提供除问句类别外的其它信息;相关研究的实验限定在某些特定领域,针对开放域的问句分类研究较少。本文
3、针对开放域问句分类这一特定任务,使用基于注意力(Attention)机制的双向长短期记忆网络(LSTM)的深度学习模型对问句进行建模,同时捕捉问句的局部和全局信结合注意力和双向 LSTM 的开放域问句分类研究苏雪峰(山西工程科技职业大学 现代物流学院晋中030619)摘要:针对现有端对端模型没有对问句局部信息进行显式建模以及模型可解释性差等方面的不足,本文提出面向开放域的基于注意力机制和双向 LSTM 的问句分类方法。该法一方面使用注意力机制捕捉问句的局部信息;另一方面将注意力机制视为一种模型内置的自解释机制,将其与双向 LSTM 结合完成对问句局部和全局信息的建模。在 TREC、MSQC、B
4、aidu-Zhidao、Baidu-Search 四个公开的开放域问句分类数据集上的实验结果表明,本文提出的方法在分类性上优于现有的基准方法,而且该方法的注意力机制能捕捉到问句分类的关键局部信息,提高模型的可解释性,为下游任务提供除类别以外的关键信息。关键词:开放域;问句分类;注意力机制;可解释性;双向长短期记忆(LSTM)网络中图分类号:TP391文献标识码:A文章编号:220722-10210Research on the Open-domain Question Classification Based onAttention and Bi-directional LSTMSU Xuef
5、eng(School of Modern Logistics,Shanxi Vocational University of EngineeringScience and TechnologyJinzhong030619)Abstract:The existing end-to-end model did not model explicitly the local information of the question sentence and themodel interpretability was poor.To solve these problems,we proposed a q
6、uestion classification method for open-domainbased on attention mechanism and bi-directional LSTM.This method regarded the attention as a built-in self-explanato-ry mechanism to capture the local information of the question,and captured the global information with bi-directionalLSTM.The experiments
7、on TREC,MSQC,Baidu-Zhi,Baidu-Search show that the proposed method is more superioritythan the state-of-art methods in classification performance.Moreover,this method can capture the key local informationof the question with the help of attention mechanism,which promotes the interpretability of the m
8、odel in further and pro-vides the key information for downstream tasks besides class information.Keywords:open-domain;question classification;attention mechanism;interpretability;bi-directional LSTM(Long Short Term Memory)基金项目:2019 年山西省哲学社会科学规划课题(2019B453)。*总第 488 期2023 年 2 月 1 日Summary Collection o
9、f Translations6办公自动化杂志息,使用 Attention 对问句中的关键特征词进行显式建模,同时将 Attention 视为一种内置的提供模型可解释性的机制。最后,在多个公开的大规模数据集上进行实验验证,验证表明本文提出的方法能有效捕捉到开放域问句分类的显式特征,能为下游任务提供除问句类别外的更多有价值的信息,与已有方法相比,本文提出的方法在分类准确率、可解释性等方面优于目前主流的方法。1 相关工作问句分类的方法大体可以分为三类:基于规则的方法、基于特征工程的方法和基于深度学习的方法。基于规则的方法主要利用问句特殊的句法结构,人工设计规则模板,通过模式匹配实现问句的分类。该类方
10、法需要人工设计规则,主要应用在某些限定域问答系统的问句分类中2,5。如面向教育的问答、面向食谱的问答、面向旅游的问答等。基于规则的问句分类方法由于需要人工设计规则,很难直接推广到开放域问答系统的问句分类中;基于特征工程的问句分类方法一般使用自动或半自动的方式提取问句特征,然后使用 SVM、最大熵、最近邻等机器学习算法进行模型训练3-4。该类方法的难点在于问句特征的抽取,需要耗费大量的人力和物力,适用于解决问句模式、主题较为集中的限定领域问句分类问题;近年来,以卷积神经网络(CNN)、长短期记忆网络(LSTM)为代表的深度神经网络模型被广泛应用到文本分类、文本蕴含、阅读理解等 NLP 任务中,取
11、得了良好的效果。6-9深度神经网络模型将问句分类视为短文本分类或句子分类问题,其研究的重点是如何使用深度神经网络对句子或文本进行建模,建模的方法主要有基于 CNN 方法、基于 LSTM的方法、以及 CNN 和 LSTM 结合的方法。10,11该类方法的分类性能普遍高于基于特征工程的方法。但该类方法没有考虑到开放域问句分类的特殊性,模型的可解释性普遍较差。模型可解释性总体上可分为两类:ante-hoc 可解释性和post-hoc 可解释性,前者通过使用结构简单、解释性较好或将可解决的机制集成到模型中,从而提高模型本身的自解释性;后者通过使用可解释技术分析和解释已训练好的模型,是一种后处理技术。1
12、2注意力机制(Attention)是一种广泛使用的提高模型自解释性的机制。13-152 模型本文采用基于 Attention 机制的双向 LSTM 网络构建分类模型 Att-Bi-LSTM,网络结构如图 1 所示。在神经网络的Embedding 层完成词到词向量的映射,获得问句中每一个词的分布式表示;在 LSTM 层使用双向 LSTM 网络对输入序列进行建模,输出每一时刻的向量表示;在 Attention 层通过使用自注意力机制计算LSTM 层输出的每一个向量的权值,然后对这些向量进行加权求和得到问句的向量表示;在 soft-max 层构建全连接网络,实现问句表示到问句类别的映射。2.1 问句
13、表示长短期记忆网络(LSTM)是循环神经网络 RNN 的变种,它能捕获序列数据较长距离的语义依赖关系,是广泛使用的序列数据建模方法。本文使用双向 LSTM 对问句进行建模。首先通过词映射得到词的 Word Embedding,将句子转化为词向量序列,使用使用双向 LSTM 对句子进行编码。LSTM在 t 时刻的隐藏状态输出为:其中,分别表示 LSTM 的正向和反向输出,“;”表示向量拼接。若 LSTM 隐藏单元的个数为 u,则的维度为 2u。所有时刻处理完之后,双向 LSTM 网络隐藏状态序列为。2.2 注意力(Attention)机制处在问句不同位置的词、不同词性的词对判断问句类型发挥不同的
14、作用。如汉语问句“一个人在没有水的情况下可以存活多少天?”,根据“多少天”可确定问句的答案应为一个“数值(NUMERIC)”,“多少天”位于句子的末尾,“多少”和“天”分别为疑问词和名词;对英文问句“how long cana person survive without water?”,“how long”位于句子的开头,根据“how long”可确定问句的答案应为一个“数值(NU-MERIC)”。在开放域环境下,用户输入的问句很多情况下并不是一个完整的句子,常常不包括疑问词,如“在线广告的价格”,此时位于句子末尾的名词“价格”对于判断问句的类型起着决定性作用。本文借鉴 Lin16等人提出的
15、 self-attention 机制,该种机制无需额外信息,只需根据问句内部各词之间的语义相关性获得句子中不同词的 Attention 值。设为双向 LSTM 网络隐藏状态序列构成的矩阵,r 为经 Attention 机制加权后的问句表示,变换过程如下:其中,为权值矩阵,是一个 2u 维的参数向量。和 r 分别是 n 维和 2u 维向量。为提高计算效率,本文使用固定的权值矩阵 W=I,I 为单位矩阵。2.3 问句分类问句分类的目标就是要学习一个分类模型来预测问句 S 的类型标签,使得:图 1 Att-Bi-LSTM 模型网络结构示意图2023 年 2 月 1 日Summary Collecti
16、on of Translations总第 488 期7办公自动化杂志其中,为权值矩阵,br是 m 维的偏置向量,m为问句的类别数。损失函数采用交叉熵损失,其形式为:其中,N 为训练样本数,和分别为样本类别的真实分布和预测分布,为正则化因子,为正则项。3 实验结果及分析为了验证基于 Attention 和双向 LSTM 的开放域问句分类模型 Att-Bi-LSTM 的性能,在三个公开数据集上进行对比实验,包括一个英文数据集和两个中文数据集;此外,本文利用 Attention 的自解释机制,通过可视化的手段对模型进行了详细分析。3.1 实验数据集MSQC 数据集来源于微软问答数据集 MS MACRCO,11问句取自必应搜索引擎中的查询日志。Baidu-Search 和Baidu-Zhidao 是自于百度问答数据集 DuReader,问句分别取自百度搜索引擎和百度知道的查询日志。17三个数据集的问句覆盖领域较广,问句由搜索引擎用户编辑生成,数据规模较大,可作为面向开放域问句分类研究的实验数据集。数据集的统计信息如表 1 所示:表 1 实验数据集统计信息3.2 参数设置为了验证基于 Atten