1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023基于 BET_Att 的机器阅读理解模型王红邸帅吴燕婷(中国民航大学计算机科学与技术学院天津 300300)收稿日期:2020 07 29。国家自然科学基金民航联合基金项目(U1633110);空中交通管理系统与技术国家重点实验室开放基金资助项目(SKLATM201902)。王红,教授,主研领域:自然语言处理,知识图谱。邸帅,硕士生。吴燕婷,硕士生。摘要针对当前机器阅读理解模型中文本与问题的语义融合不够充分、缺乏考虑全局的语义信息的
2、问题,提出一种基于 BET、注意力机制与自注意力机制的机器阅读理解模型 BET_Att。该模型采用 BET 将文本和问题分别映射进特征空间,通过 Bi-LSTM、注意力机制与自注意力机制将文本与问题进行充分的语义融合,通过Softmax 计算答案的概率分布。在公共数据集 Dueader 上的实验结果表明,该模型的 BLEU-4 值与 OUGE-L 值较现有的模型均有进一步的提升,并且分析了影响模型表现的因素,验证了该模型设计的有效性。关键词机器阅读理解BET自注意力机制Bi-LSTM语义融合中图分类号TP391文献标志码ADOI:10 3969/j issn 1000-386x 2023 03
3、 034MACHINE EADING COMPEHENSION MODEL BASED ON BET_ATTWang HongDi ShuaiWu Yanting(School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China)AbstractAimed at the problem that the semantic fusion of the passages and the problems in the current machinereading com
4、prehension model was not sufficient and the global semantic information was not considered,a machinereading comprehension model BET_Att based on BET,attention mechanism and self-attention mechanism is proposedThis model used BET to map passages and problems into feature space Through Bi-LSTM,attenti
5、on mechanism andself-attention mechanism,the semantic fusion of passages and problems was fully carried out Softmax was used tocalculate the probability distribution of the answers Experimental results on the public dataset Dueader show thatBLEU-4 value and OUGE-L value of this model are further imp
6、roved compared with the current models By analyzingthe factors that affect the performance of this model,the effectiveness of this model is verifiedKeywordsMachine reading comprehensionBETSelf-attention mechanismBi-LSTMSemantic fusion0引言机器阅读理解(Machine eading Comprehension,MC)是让机器阅读并理解文本,进而对于给出的问题进行回
7、答的技术1。学术界中,通过机器阅读理解来评估机器的理解能力是一项持久而又富有挑战的自然语言处理问题。工业界中,机器阅读理解是譬如智能问答、搜索等任务的关键技术。当机器具备相当水平的理解能力时,机器将便捷精准地从海量碎片化的信息流中获取人类所需的知识2。传统的机器阅读理解模型大多采用基于规则的方法。Hirschman 等3 开发了 Deep ead 阅读理解系统,通过使用词袋法来表示句子信息并且借鉴了信息抽取的方法。iloff 等4 通过启发式规则开发了一个基于规则的阅读理解系统 Quarc,通过采用设定的规则来寻找文本和问题之间的词汇和语义线索。然而此系统针对不同的问题需要手工设定不同的规则,
8、耗时费力。尽管在一些较为简单的数据集中,基于规则的方法可以取得一定的效果,但是,基于规则的方法过于依赖人工5,系统的工程成本较高且很大程度上依赖现有的自然语言处理工具,如依存句法分析或是语义标注工具6,较难获取到机器阅读理解任务所需的深层语义特征。同时,由于训练此法的数据集本身的局限性,导224计算机应用与软件2023 年致其泛化能力大打折扣。此外,此法往往依赖于窗口进行匹配,因此难以解决句子之间的长距离依赖问题。随着神经网络模型日趋成熟,研究者们将循环神经网络(ecurrent Neural Network,NN)7、卷积神经网络(Convolutional Neural Networks,
9、CNN)8、注意力机制等应用于机器阅读理解任务中。Yu 等9 首次提出采用二元 CNN 生成文本序列和问题序列的分布式语义表示,但是长距离依赖问题仍未有效解决。Her-mann 等10 率先将注意力机制应用于机器阅读理解任务中,效果超越同期方法,但是未解决指代消解以及所采用的单向注意力机制未充分获取文本和问题之间的关联等问题。随着注意力机制的发展,Wang 等11 提出的 Match-LSTM 模型、Seo 等12 提出的 BiDAF 模型、谷歌提出的 QANet13 模型均结合使用了各类的注意力机制,较好地解决了文本序列与问题序列的语义融合问题,但是仍然解决不了一词多义等问题。随着谷歌 BE
10、T14 的提出,预训练的语言模型极大地促进了机器阅读理解的发展。由于通过大规模的预训练样本进行训练,可以捕获更深层次的语义特征与句间关系,较好地提高了机器阅读理解的模型性能15 16。基于以上分析,本文将预训练的 BET 模型、注意力机制和自注意力机制相结合,针对机器阅读理解中的问答式任务,提出基于 BET_Att 的机器阅读理解模型,旨在解决当前机器阅读理解模型中存在的上下文语义融合不够充分以及缺乏整体信息利用等问题。1基于 BET_Att 的机器阅读理解模型本文所构建的机器阅读理解模型 BET_Att 自下而上共分为五个层次,模型框架如图 1 所示。图 1基于 BET_Att 的机器阅读理
11、解模型框架(1)嵌入层。采用 BET 将文本序列和问题序列映射进高维稠密的向量空间。(2)上下文编码层。采用 Bi-LSTM 针对文本序列和问题序列的向量分别进行编码,提取上下文信息。(3)注意力交互层。采用文本对问题和问题对文本的双向注意力机制对文本和问题进行语义融合,进一步采用自注意力机制突出整体信息的表达。(4)解析层。采用 Bi-LSTM 捕获伴随问题感知的文本中词与词之间的交互关系。(5)答案输出层。采用 Softmax 计算答案开始和结束位置的概率分布。1 1嵌入层模型的输入为问题序列 Q=q1,q2,qJ 和上下文的文本序列 P=p1,p2,pT,嵌入层的作用是将问题序列和文本序
12、列映射到高维稠密的向量空间中。BET 为谷歌 2018 年提出的预训练模型,模型框架如图 2 所示。其中:E 代表输入的向量表示;T 代表输出的向量表示;Trm 为 Transformer 特征抽取器(BET 的BASE 版本具有 12 层的 Transformer;Embedding 的维度为 768;BET 的 LAGE 版本有 24 层的 Transformer,Embedding 的维度为 1 024。本文使用的是 BET 的BASE 版本)。图 2BET 模型框架事实上在 BET 之前,出现过 GPT(Generative Pre-Training)预训练模型与 ELMO(Embed
13、ding from Lan-guage Models)预训练模型。这三个模型均可以解决Word2Vec 或者 Glove 这类静态模型遗留的一词多义问题(例如:“一天一苹果,医生远离我”和“苹果新款手机发布会”,两句中的“苹果”如果使用 Word2Vec 或者 Glove 将会生成完全相同的向量)。但是,由于 ELMO使用 LSTM 而不是 Transformer 作为特征抽取,导致其获取特征能力偏弱。而 GPT 虽然使用了 Transformer抽取特征,但是使用的是单向自回归的语言模型,在上下文特征的获取方面存在短板。反观 BET 模型,其第 3 期王红,等:基于 BET_Att 的机器阅
14、读理解模型225具有以下优势:(1)通过使用 Masked 双向语言模型,可以较好地抽取上下文相关的特征。(2)通过添加 Next Sentence Prediction 任务,可以处理句子相关的任务。(3)使用 Transformer 来抽取特征。基于以上分析,本文采用 BET 将 Q 和 P 分别映射进 d 维的向量空间中。该层的输出为:文本表征矩阵:Epd T问题表征矩阵:Eqd J式中:T 表示的是文本序列的最大长度;J 表示的是问题序列的最大长度;d 则为向量的维度,d=768。1 2上下文编码层为了进一步获取任务所需要的上下文信息。在本文模型中,上下文编码层以及解析层均采用了 Bi
15、-LSTM网络。Bi-LSTM 是由 LSTM(Long Short-Term Memory)网络发展而来。LSTM 的单个单元的内部构造如图 3所示。其是由输入门 i、输出门 o、遗忘门 f、记忆单元ct所组成。LSTM 网络可以有效解决训练过程中的梯度爆炸或者梯度消失的问题。图 3LSTM 单元内部构造LSTM 网络的计算过程如下:X=et,ht 1(1)it=(WiX+bi)(2)ot=(WoX+bo)(3)ft=(WfX+bf)(4)ct=ftct 1+ittanh(WcX+bc)(5)ht=ottanh(ct)(6)式中:为点乘运算;et为文本序列(或问题序列)的 t时刻向量表示;h
16、t为第 t 时刻的隐藏层状态向量;为代表网络的激活函数为 Sigmoid;W 为隐藏层向量的权重矩阵;b 为偏置向量;W 和 b 均为网络的可训练参数。尽管 LSTM 可以获取上文的信息,但是无法获取下文的信息,因此本文采用 Bi-LSTM 来对上下文信息进行捕获。Bi-LSTM 网络如图 4 所示。图 4Bi-LSTM 模型框架Bi-LSTM 通过将正向 LSTM 对应的隐藏层向量 ht和反向 LSTM 对应的隐藏层向量 ht进行拼接后得到Ht,由于 ht捕获了上文信息,ht则捕获了下文信息,因此 Ht便获得了本文任务所需要的上下文信息。将 Ep和 Eq分别经此网络,得出文本矩阵 H2d T以及问题矩阵 U2d J,语义便从词级别汇总成句子级别。1 3注意力交互层注意力(Attention)机制最早应用于视觉图像领域,自然语言处理领域最早应用注意力机制的则是Bahdanau 等17 所做的机器翻译任务。注意力机制可以计算单词的权重,此权重可以理解为对任务的重要性大小。此层的目的是将问题中的词与文本中的词进行交互与融合,以突出模型所需要的重点部分。详细过程如下:首先,本文从两个方向上计