快速联合实体和关系抽取模型

资源描述

1、Computer Engineering and Applications计算机工程与应用2023，59（13）实体和关系抽取的目的是从非结构化文本中寻找实体的关系结构。许多下游任务，如基于知识的自动完成1、基于知识的问答2-3和视觉问答的符号技术4依赖于此任务。快速联合实体和关系抽取模型杨冬1，2，田生伟1，2，禹龙1，2，周铁军3，王博11.新疆大学软件学院，乌鲁木齐 8300002.新疆大学软件技术重点实验室，乌鲁木齐 8300003.新疆互联网信息中心，乌鲁木齐 830000摘要：从纯文本中抽取实体和关系是知识和问答任务的关键技术。传统的多头模型预测所有片段对的关系类型，而由于关系

2、的稀疏性，片段对的负标签数量远大于正标签。同时，该计算方式导致计算量与句长度的二次方成正比，降低了模型的实用性。为解决该问题，快速实体关系抽取模型被提出。对于命名实体识别任务，实体的开始和结束标签分别对两个指针网络预测。在关系抽取任务中删除了不包含实体结束标签的语义片段对。该方法减少了片段对的数量并加快了关系抽取任务的推理速度。为了证明模型的有效性，在英语新闻数据集ACE05和荷兰语房地产数据集DREC上进行了实验。实验结果表明，与基线模型相比，该模型取得了有竞争力的性能，其推理速度在ACE05上提高了约1.4倍，在DREC上提高了约2.1倍。关键词：实体识别；关系抽取；神经网络；自然语言处理

3、；信息抽取文献标志码：A中图分类号：TP391doi：10.3778/j.issn.1002-8331.2204-0327Fast Model for Joint Extraction of Entity and RelationYANG Dong1，2,TIAN Shengwei1，2,YU Long1，2,ZHOU Tiejun3,WANG Bo11.College of Software,Xinjiang University,Urumqi 830000,China2.Key Laboratory of Software Engineering Technology,Xinjiang U

4、niversity,Urumqi 830000,China3.Xinjiang Internet Information Center,Urumqi 830000,ChinaAbstract：Extracting entities and relations from plain text is a key technique for knowledge and question answering tasks.The traditional multi-head model predicts the relation type of all segment pairs,while the n

5、umber of negative labels forsegment pairs is much larger than positive labels due to the sparsity of relations.At the same time,this calculation methodcauses the calculation amount to be proportional to the square of sentence length,which reduces the practicability ofthe model.To solve this problem,

6、a fast extraction model of entity and relation is proposed.For the named entity recognitiontask,the start and end labels of entities are predicted by two pointer networks,respectively.Semantic segment pairs thatdo not contain entity end tags are removed in the relation extraction task.This method re

7、duces the number of segmentpairs and speeds up inference for relation extraction tasks.To demonstrate the effectiveness of the model,experiments areconducted on the English news dataset ACE05 and the Dutch real estate dataset DREC.The experimental results showthat the model achieves competitive perf

8、ormance compared with the baseline model,and its inference speed is improvedby 1.4 times on ACE05 and 2.1 times on DREC.Key words：entity recognition;relation extraction;neural network;natural language processing;information extraction基金项目：新疆维吾尔自治区重点研发项目（2021B01002）；国家自然科学基金重点项目（U2003208）；国家自然科学基金（61

9、962057）。作者简介：杨冬（1992），男，硕士研究生，CCF学生会员，研究方向为自然语言处理；田生伟（1973），通信作者，男，博士，教授，研究方向为人工智能、自然语言、生物信息处理，E-mail：；禹龙（1974），女，博士，教授，研究方向为自然语言、网络安全；周铁军（1976），男，高级工程师，研究方向为通信技术、自然语言处理；王博（1980），女，高级工程师，研究方向为广播电视发射、监测。收稿日期：2022-04-20修回日期：2022-07-20文章编号：1002-8331（2023）13-0164-071642023，59（13）以前的研究使用由命名实体识别和关系抽取5模块组成

10、的流水线模型解决此问题。但流水线模型存在两个主要缺陷：（1）错误从实体识别传递到关系抽取任务；（2）丢弃了实体识别和关系抽取的关联信息。联合模型克服了流水线模型的主要缺陷，其中一些模型取得了最优性能6。早期的联合模型7依赖于手动抽取的特征。最近的工作使用神经网络自动捕获特征8-12。Bekoulis等人13介绍了一个用于实体和关系抽取的联合模型，即多头模型。在实体识别任务中，该模型使用了条件随机场（conditional random field，CRF）层，在关系抽取任务中，使用了多头标注框架。如图1所示，实体对的关系类型通过实体结束片段对计算得到，多头模型中，所有片段对的关系类型均被计算，

11、导致多头模型的计算量正比于序列长度的平方。此外，大多数片段对不存在关系，关系标签的不平衡降低了关系抽取任务的性能。对于长序列，计算量随序列长度平方增长的问题则尤为严重。Huang等人14提出了使用BERT中文15作为编码器的联合模型，但没有解决计算量平方增长的问题。Li等人16将原始文本中实体和关系的联合抽取任务建模为多轮问答问题。他们为实体识别任务提出了一个指针网络，其中仅包含实体开始和结束标记。该框架非常适合捕获标签分层依赖关系，但必须对每个句子的所有实体和对应关系模板进行扫描，导致计算效率低，缺乏并行计算友好性。针对在多头模型的计算量问题13-14和关系标签的不平衡问题17，提出了实体识

12、别和关系抽取任务的联合模型。相比多头模型，该模型根据实体标注的结果，在关系抽取阶段只保留了带有实体结束标签的语义片段，减少了关系抽取模块中的语义片段对，将关系抽取任务所需的计算量，由句长度的平方转变为实体长度的平方，并缓解了关系标签的不平衡问题。该模型先识别实体，然后使用实体的末端片段预测实体对的关系类型，因此不会加剧实体识别任务的错误传播。由于删除片段对的操作发生在关系抽取模块，编码器能得到完整的语义信息。在流行的英语数据集（ACE05）和荷兰语数据集（DREC）上进行实验，与多头抽取框架13-14相比，提出模型在ACE05数据集上速度提高了约1.4倍，在DREC数据集上提高了约2.1倍。结

13、果表明提出模型成功解决了多头模型中，计算量随句长度平方增长问题；缓解了标签不平衡问题；错误传播问题未被加剧且语义信息完整性得到了保留；作为第一个关注联合抽取模型速度的工作，在文档级抽取方面有研究潜力。1相关工作实体和关系的抽取是自然语言处理（NLP）研究领域的一项基本而重要的任务。该任务的主要模型可以根据其结构分为两组：（1）流水线模型；（2）联合抽取模型。1.1流水线模型流水线模型有两个部分：（1）命名实体识别（namedentity recognition，NER）；（2）关系抽取（relation extrac-tion，RE）。实体识别任务用于抽取实体，关系抽取任务随后预测实体之间的关

14、系。Chiu等人18使用混合双向长短期记忆（long-short term memory，LSTM）和卷积神经网络（convolutional neural network，CNN）编码器，提出了一个自动抽取单词和字符级别特征的模型，将实体识别任务转化为序列标记任务。为了利用上下文信息，Lample等人19使用了带有 CRF层的双向 LSTM。Qian等人20使用图卷积网络（graph convolutional network，GCN）来编码各种关系，例如依赖关系和相邻关系。因此，可以自动学习本地化和非本地化特征。Li等人21将实体识别任务定义为机器阅读理解（machine readingc

15、omprehension，MRC）任务。实体仅标注在开始和结束片段上，通过回答不同的问题抽取具有不同关系类别的重叠实体。赵丹丹等人22使用多头注意力与字词融合机制处理中文实体识别问题。对于关系抽取问题，文献23-25使用依赖树来抽取关系抽取任务中的句法特征。为了降低冗余数据，只选择了最短的依赖路径，缺点是会丢失一些关键信息。为了消除该缺陷，Gupta等人26集成了关系抽取的最短依赖路径和依赖子树。由于使用了递归神经网络（RNN）作为依赖树解码器，他们的模型难以训练和计算。对于实体识别和关系抽取任务，Wang等人27展示了一个具有两个独立编码器的复杂神经网络。黄梅根等人28通过关系分类任务预测出

16、可能包含的关系，将预测关系编码融合到词向量中，对每一种关系复制出一个实例，输入到元素抽取任务，通过命名实体识别预测三元组。1.2联合模型流水线方法有两个主要缺陷：（1）错误从实体识别传递到关系抽取任务；（2）丢弃了实体识别和关系抽取CLSBrentSadler,CNN,nearKirkukinnorthernIraq.SEQCLSBrentSadler,CNN,nearKirkukinnorthernIraq.SEQSadlerCNNKirkukIraqSadlerCNNKirkukIraq（a）多头模型（b）快速模型图1快速模型与多头模型的比较Fig.1Comparison between fast model and multi-head model杨冬，等：快速联合实体和关系抽取模型165Computer Engineering and Applications计算机工程与应用2023，59（13）的关联信息。为了解决流水线模型的缺陷，联合抽取模型得到发展，从单个模型中抽取实体和关系。文献6，29的模型基于复杂的特征工程，这需要大量的时间和精力。Miwa等人6提出了一种基于历史的

展开阅读全文

快速联合实体和关系抽取模型_杨冬.pdf