基于预训练模型的关系抽取研究综述

资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期摘要：近年来随着深度学习技术的不断革新，预训练模型在自然语言处理中的应用也越来越广泛，关系抽取不再是单纯地依赖传统的流水线方法。预训练语言模型的发展已经极大地推动了关系抽取的相关研究，在很多领域已经超越了传统方法。首先简要介绍关系抽取的发展与经典预训练模型；其次总结当下常用的数据集与评测方法，并分析模型在各数据集上的表现；最后探讨关系抽取发展的挑战与未来研究趋势。关键词：深度学习；预训练模型；关系抽取；特征抽取；自然语言处理中图分类号：TP391文献标志码：ADOI：10.3969/j.issn.1006-2

2、475.2023.01.009Review of Relation Extraction Based on Pre-training Language ModelWANG Hao-chang，LIU Ru-yi（School of Computer and Information Technology，Northeast Petroleum University，Daqing 163318，China）Abstract：In recent years,with the continuous innovation of deep learning technology，the applicati

3、on of pre-training models innatural language processing has become more and more extensive,and relation extraction is no longer purely dependent on thetraditional pipeline method.The development of pre-training language models has greatly promoted the related research of relationextraction，and has s

4、urpassed traditional methods in many fields.First，this paper briefly introduces the development ofrelationship extraction and classic pre-training models；secondly,summarizes the current commonly used data sets and evaluationmethods,and analyzes the performance of the model on each data set;finally，d

5、iscusses the development challenges of relationshipextraction and future research trends.Key words：deep learning；pre-training model；relation extraction；feature extraction；natural language processing文章编号：1006-2475（2023）01-0049-09收稿日期：2022-01-06；修回日期：2022-04-17基金项目：国家自然科学基金资助项目（61402099,61702093）作者简介：

6、王浩畅（1974），女，黑龙江大庆人，教授，博士，研究方向：人工智能，自然语言处理和数据挖掘，E-mail：；刘如意（1995），男，江西赣州人，硕士研究生，研究方向：实体关系抽取，E-mail：。0引言信息时代网络上无穷无尽的信息生成和共享为人们提供了丰富的数据，其中大部分构成了非结构化的文本资源。为了更好地理解这些数据，并在它们之间建立联系，人们使用文本中实体之间的相关事实来表示，也称之为关系。基于此衍生出了自然语言处理（Natural Language Processing，NLP）的一个子任务：关系抽取（Relation Extraction，RE）。关系抽取任务在1998年MUC-7

7、1会议上第一次被提出，当时主要用的方法就是用模板提取出实体之间的关系。之后ACE2会议为关系抽取提供了相当规模的数据集，进一步促进了关系抽取的发展。SemEval会议3补充定义了常见名词及其之间的关系，还提供了至今常用的SemEval-2010 Task8数据集。随着词向量技术的发展，也进一步推动了关系抽取的发展。关系抽取是指从文本中抽取出2个或多个实体之间的关系，这些关系可以是不同的类型，并且抽取结果通常用三元组进行表示。关系抽取所应用的方法也通常基于以下3种方法：基于规则、监督学习和半监督与无监督学习方法。早期Aone等人4根据专家针对语料文本的自身特点编写的规则，从而抽取出文本中的实体关

8、系。很明显基于规则的方法对于数据要求高、局限大且模型移植性很差。随之而来的是基于传统机器学习的关系抽取，在对关系抽取工作的效率以及模型性能要求越来越高的形势下，2006年Mnih 等人5提出了与机器学习不同的深度学习概念。与此同时，Word2Vec、Glove等6-7词向量技术在迁移学习的推动下也开始在关系抽取方面取得较佳的效果。后续的注意力机制8也帮助模型在实际任务中能有更好的表现。2018年Peters等人9为了能更好地解决多义词问题提出了 ELMO 模型。同年Radford等人10提出了自回归的GPT模型，采用预训练和微调方式解决动态语义问题，一定程度上缓解了关系抽取过程中存在的实体重叠

9、等问题。与此同时Google也提出了BERT11预训练模型，进一步在下游任务中提升了模型效果。2019 年 CMU（Carnegie Mellon University）和Google Brain联合推出了BERT的改进版XLNet12模型。该模型提出了一种广义自回归预训练方法，利用双流注意力机制和 Transformer-基于预训练模型的关系抽取研究综述王浩畅，刘如意（东北石油大学计算机与信息技术学院，黑龙江大庆 163318）计算机与现代化2023年第1期XL13克服BERT存在的局限性。实验结果表明，XLNet 模型又进一步提升了在 20 个 NLP 任务中的表现。2020 年 Zho

10、ng 等人14提出端到端的流水线方法，采用2个独立编码器分别用于实体识别和关系抽取任务上学习上下文表示，进一步刷新了当前任务的最佳表现。2021年复旦大学Xie等人15采用远程监督的方法，对数据集的特征进行分析，使用先抽取关系再抽取实体的方式进行关系抽取研究。2022 年Shang等人16提出单模块和单步解码的实体关系联合抽取方法，模型选择直接识别三元组，从而更好地捕获三元组之间的依赖联系。随着在GPT、BERT和XLNet等预训练模型在关系抽取领域的应用越来越多，这为后续在公共数据集上的基于预训练模型的关系抽取发展提供了更多的可能性。1经典预训练模型预训练模型是迁移学习在NLP领域的一个成功

11、应用，它首先被应用在图像领域。模型在预训练过程中，使用海量的数据集进行训练从而学习到泛化性很强的语义知识，再针对不同的下游任务进行模型参数微调，进而达到快速收敛的目的。在关系抽取任务中，预训练模型前期通过在大量自然语言文本上构建的语言模型进行半监督训练，从而学习文本句子间更深层次的关系，而后根据具体的关系抽取任务设计合适的网络模型拼接到预训练模型网络中再进行微调工作，从而得出最终结果。本章主要对ELMO、GPT、BERT、XLNet和XLM这5种预训练模型进行介绍。1.1ELMO模型现有的静态预训练技术无法区分多义词的不同语义，直到 ELMO 的提出才有了有效的解决方案。ELMO的本质思想是通

12、过使用针对语言模型训练好的BiLSTM（Bi-directional Long Short-Term Memory）17 来构建数据的文本表示。ELMO 模型在 NLP 领域的使用主要分为 2 个阶段。第一个阶段选择BiLSTM作为特征抽取器如图1所示。训练时，BiLSTM通过前k-1个序列t计算出第k个序列出现的概率p，如式（1）所示：p（t1，t2，tN）=Nk=1p（tk|t1，t2，tk-1）（1）同理，后向的计算与前向类似，通过后N-k个序列计算第k个序列出现的概率p，如式（2）所示：p（t1，t2，tN）=Nk=1p（tk|tk+1，tk+2，tN）（2）于是，BiLSTM训练过程

13、中的目标就是最大化式（3）。k=1N(logp()tk|t1,t2,tk-1;x,?LSTM,s+)logp()tk|tk+1,tN;x,?LSTM,s（3）其中，?LSTM表示前向LSTM网络参数，反向的LSTM网络参数?LSTM同理；x表示映射层的共享参数，s表示上下文矩阵的参数。ELMO模型是用所有层输出值的线性组合来表示词向量的值，所以每 L 层的BiLSTM都涵盖了2L+1层表示，如式（4）所示：Rk=xLMk，h?LMk，j，h?LMk，j|j=1，L=hLMk，j|j=0，L（4）其中，xkLM等于hLMk,j表示的是token编码的结果，LM表示的是前向和后向语言模型的向量。在

14、下游任务中会把Rk压缩成一个向量如式（5）所示。ELMOtaskk=E()Rk；task=taskj=0LstaskjhLMk，j（5）其中，staskj是softmax标准化权重，task是缩放系数，允许任务模型缩放整个ELMO向量。其次针对具体的下游任务，ELMO将预训练好的词向量添加到具体的任务训练中。而且，ELMO模型考虑到英文数据的特点，在 Jozefowicz 等人18提出的方法基础上，在模型结构中加入了CNN19结构。卷积神经网络的加入可以在一定程度上建立包含更全面的词表，而且能更好地提取到相关的形态信息。但是ELMO与后期提出的GPT和BERT对比，主要的问题在于特征抽取器没有

15、选择性能更强的 Transformer20，这就导致其双向拼接融合特征能力偏弱。图 1ELMO模型结构1.2GPT模型OpenAI 针对 ELMO 的不足之处提出了 GPT 模型，其综合了ULMFiT21的多阶段迁移方法和模型微调，在NLP领域的任务中取得比ELMO更佳的效果。GPT 主要使用了生成式方法来训练语言模型22。其特征抽取器选择了 Transformer，因为在逐字翻译的过程中屏蔽了后续的语词序列，而且在处理长距离依赖性方面也比LSTM有着更好的表现。GPT的模型结构使用了单向的Transformer的解码器，结构如图2所示，并且在训练时只保留了一个多头注意力机制。其中，Trm模块

16、是使用Transformer模型的特征抽取器，E 和 T 分别表示输入和输出（BERT 模型下同）。对于模型的输入处理，只需要在首尾添加各自标记；而输入的序列不止一个序列时，先用分隔符“$”分隔后再进行上述操作。基于这种输入层和输出层的通用化设计，加上Transformer的强大表征能力，为GPT模型在NLP领域任务中的良好表现奠定了坚实的基础。T1LSTMT2TNE1E2ENLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMTrmTrmTrmTrmTrmTrmT1T2TNE1E2ENOpenAI GPT图 2GPT模型结构502023年第1期王浩畅，等：基于预训练模型的关系抽取研究综述GPT训练过程分为2个部分：无监督预训练语言模型和有监督的下游任务微调。无监督训练语言模型时需要最大化如式（6）所示的似然函数。L1()u=logP()ui|ui-k,ui-1;（6）其中，k是上下文窗口大小，是神经网络参数。实验中，使用多层的Transformer编码器作为语言模型，利用多头注意力机制来处理文本信息以及位置信息的前馈神经网络，输出词的概率分布如式（

展开阅读全文

基于预训练模型的关系抽取研究综述_王浩畅.pdf