1、书书书第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023机器阅读理解研究与进展王浩畅1闫凯峰1Marius Gabriel Petrescu21(东北石油大学计算机与信息技术学院黑龙江 大庆 163318)2(普罗耶什蒂石油天然气大学普拉霍瓦 普罗耶什蒂 100680)收稿日期:2020 05 16。国家自然科学基金项目(61402099,61702093)。王浩畅,教授,主研领域:人工智能,自然语言处理,数据挖掘,生物信息学。闫凯峰,硕士生。Marius Gabriel Petr
2、escu,教授。摘要针对目前机器阅读理解的研究进展,对机器阅读理解的研究背景和国内外研究现状进行详细介绍,着重介绍国内外主流的大规模机器阅读理解数据集,以及在各个数据集上的评价指标。介绍神经机器阅读理解模型,并对向量化、编码、注意力机制、答案预测模块做了详细的介绍。总结当前机器阅读理解所面临的问题,并展望未来的发展趋势。关键词自然语言处理机器阅读理解深度神经网络机器阅读理解数据集注意力机制中图分类号TP391文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 001ESEACH AND POGESS ON MACHINE EADING COMPEHENSION
3、Wang Haochang1Yan Kaifeng1Marius Gabriel Petrescu21(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,Heilongjiang,China)2(University Petroleum-Gas of Ploiesti omania,Ploiesti 100680,Prahova,omania)AbstractIn view of the current research progress of machine r
4、eading comprehension,the paper introduced theresearch background of machine reading comprehension and the research status at home and abroad in detail It focusedon the mainstream large-scale machine reading comprehension datasets at home and abroad,as well as the evaluationindicators on each dataset
5、The neural machine reading comprehension model was introduced,including thevectorization,coding,attention mechanism and answer prediction module The paper summarized the current problemsand looked forward to the future development trendKeywordsNatural language processingMachine reading comprehension
6、Deep neural networkMachine readingcomprehension datasetAttention mechanism0引言随着人工智能时代的到来,自然语言处理(NaturalLanguage Processing,NLP)成为当前一个炙手可热的研究课题。NLP 的研究目标就是使得机器能够理解人类语言,而 NLP 的核心任务之一就是自然语言理解,因此机器阅读理解(Machine eading Comprehension,MC)受到了研究人员的极大关注。MC 现在被应用在各种实际领域(军事、司法、医疗等)中,如中电莱斯信息系统有限公司主办的全国第二届“军事智能机器阅
7、读”挑战赛,从文字情报整编业务面临的实际痛点问题为切入点,旨在由机器筛选出多篇文字情报中用户所关心的活动时间、地点、性能参数等中心内容,这充分说明 MC 在实际应用中有着重要的意义。1国内外研究现状20 世纪 90 年代末,MC 的早期研究与 NLP 很多任务一样都是使用基于规则的方法,其中 QUAC1 就是一个比较有代表性的系统,该系统使用词汇与语义对应关系规则在预测正确答案时达到了 40%的准确率;Charniak 等2 使用字符串模式匹配手动生成规则2计算机应用与软件2023 年在检索正确答案时可以达到 41%的准确率。随着统计机器学习在 NLP 领域的快速发展,MC的性能也得到了进一步
8、的提升。MC 任务要求根据已知信息(文章、问题)生成对应的答案。通常表示为根据已经给定的文章 P 以及人类根据该文章提出问题 Q,再使用 MC 技术预测该问题的正确答案 A,表示为 P,Q A。2014 年 Jansen 等3 通过手动提取篇章中的语义特征,使用支持向量机(Support Vector Machine,SVM)分类模型,并且在预测答案时使用答案排序的方法,最终在 Yahoo 问答语料库上将准确率提高了 24%。2015 年 Narasimhan 等4 通过提取句子语法和词汇特征,并使用传统的机器学习方法在 MCTest 数据集5 MC500 上将准确率提升到 63 75%。Sa
9、chan 等6 手动提取特征并使用改进的 SVM 方法在相同的数据集上,将 MC 任务的准确率提升到 67 8%。Wang等7 将语法、语义、词向量等特征作为输入,使用机器学习分类模型,将准确率提升到 69 87%。实验结果表明,这些传统机器学习方法在很大程度上提升了阅读理解任务的准确率。但使用基于传统机器学习的方法去解决 MC 任务,也存在一些缺陷:(1)使用机器学习方法,需要人工去提取词汇和语义特征,但是一些分散到文本中的语义特征很难通过手工方法提取出来;(2)传统的机器学习的方法需要大规模的数据集为模型提供更好的数据支撑,但之前提到的 MCTest 数据集,可用于训练的总数据只有 1 4
10、80条。因此,受到数据规模的限制,以及手动提取特征的难度,传统的机器学习方法很难再有突破性的进展。2015 年,由 Hermann 等8 构建了大规模数据集CNN/Daily Mail,并提出将注意力机制加入长短时记忆网络模型(Long Short-term Memory,LSTM),最终在CNN 数据集上得到了 63 8%的准确率,在 Daily Mail数据集上得到 69 0%的准确率。此后陈丹琦等9 使用改进后的基于注意力的神经网络,在 CNN 和 DailyMail 上分别取得了 73 6%和 76 6%的准确率,并且通过实验证明 CNN/Daily Mail 数据集含有较大的数据噪声
11、。斯坦福大学 ajpurkar 等10 在 2016 年构建了一个包含 107 785 个问题的数据集 SQuAD1 1。同年Wang 等11 针对该数据集提出 Match-LSTM 模型并得到了 77 1%的 F1值。Seo 等12 提出的 BiDAF 模型,在该数据集上得到 77 3%的 F1值。2017 年,陈丹琦等13 提出的单模型的 Document eader 得到 79%的F1值。2018 年,Yu 等14 提出的 QANET 模型进一步将 F1值提升至 84 6%。随着 2018 年谷歌的 Devlin15 等 BET 模型的提出,并在该数据集上取得 93 2%的F1值,深度神
12、经网络模型在此数据集上已经首次超越人类的 86 8%的 F1值。2019 年 Yang 等16 提出的XLNet 在该数据集上取得 95 08%的 F1值;同年 Lan等17 提出的 ALBET 在此数据集上得到 95 5%的 F1值。2020 年 Brown 等18 提出了 GPT-3 模型,与之前的预训练模型的不同之处是该模型在预训练好模型之后,只需要使用少量的 MC 样例去使得模型适应新的MC 任务,而不需要像之前的预训练模型一样进行梯度更新和模型的微调。国内也有大量研究人员对中文机器阅读理解(Chinese Machine eading Comprehension,CMC)进行了深入研
13、究。文献 19 20 提出基于知识库的模式匹配方法;文献 21 22 在 CMC 任务上也做出了一些贡献;2016 年哈工大讯飞联合实验室构建了 CMC数据集23;2017 年百度公司构建了大规模 CMC 数据集 Du-reader24,这是迄今为止最大的 CMC 数据集;在 2018 年“百度机器阅读理解”大赛中,基于多任务的 MC 模型25、分层答案选择模型26、多段落MC 模型27、BiDMF28 都获得了优异的成绩。2019年,哈工大讯飞联合实验室根据 BET15 模型提出了中文全词覆盖 BET 预训练模型29,该模型改进了BET 模型处理中文文本的能力。2相关数据集与评测方法大规模数
14、据集的出现,使得深度神经网络得以充分发挥其在 MC 人物上的优势。与此同时,评测方法也尤为重要。本节将介绍国内外主流的 MC 数据集,以及在这些数据集上所使用的评价方法。2 1相关数据集神经 MC 的研究必须依靠大规模的数据集作为支撑,它在一定程度上决定了 MC 系统的性能。为了降低任务难度,较早出现的 MC 数据集都将背景知识排除在外,因此可以通过人工构造简单的数据集去回答一些相对简单的问题。MC 数据集最常见的形式包括完形填空式(Cloze Style,C)、选择题类型(Multi-ple Choice,M)、段落抽取式(Span Prediction,S)及自由作答方式(Free-for
15、m Answer,F)30。本节将着重介绍 CNN/Daily Mail 8、SQuAD、Dureader 24 和 MS MA-CO 32 几个主流 MC 数据集。此外还对一些其他 MC数据集在数据规模、发布时间、数据来源等方面做了统计,如表1 所示。其中,EN 表示英文,ZH 表示中文。第 3 期王浩畅,等:机器阅读理解研究与进展3表 1当前主流的 MC 数据集比较数据集语言发布时间形式范畴数据来源数据规模/千条ContextQuestionCNN8 EN2015 年C新闻CNN 网站92 579387 420Daily Mail8 每日邮报219 506997 467People Dai
16、ly33 ZH2016 年C新闻人民日报60876 710CFT33 童话故事童话故事/3 599CliC34 EN2018 年C医学BMJ 病例报告12105eCoD35 EN2018 年C新闻CNN 网站/每日邮报80 121120 730MCTest5 EN2013 年M小说人工生成0 6602 640ACE36 EN2017 年M考试考试题27 93397 687AC37 EN2018 年M科学考试题14 000778 700SQuAD1 110 EN2016 年S维基百科维基百科0 536107 785SQuAD2 031 EN2018 年S维基百科维基百科0 536151 054NewsQA38 EN2016 年S新闻CNN 网站10100NarrativeQA40 EN2017 年F书/电影人工生成1 57246 765Dueader24 ZH2017 年F搜索引擎百度1 000200MS MACO32 EN2018 年F搜索引擎必应搜索引擎3 563 5351 010 916CNN/Daily Mail 是 2015 年发布的一个完形填空数据集。CNN 包含了从 200