ImageVerifierCode 换一换
格式:PDF , 页数:7 ,大小:1.57MB ,
资源ID:2574494      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2574494.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(快速联合实体和关系抽取模型_杨冬.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

快速联合实体和关系抽取模型_杨冬.pdf

1、Computer Engineering and Applications计算机工程与应用2023,59(13)实体和关系抽取的目的是从非结构化文本中寻找实体的关系结构。许多下游任务,如基于知识的自动完成1、基于知识的问答2-3和视觉问答的符号技术4依赖于此任务。快速联合实体和关系抽取模型杨冬1,2,田生伟1,2,禹龙1,2,周铁军3,王博11.新疆大学 软件学院,乌鲁木齐 8300002.新疆大学 软件技术重点实验室,乌鲁木齐 8300003.新疆互联网信息中心,乌鲁木齐 830000摘要:从纯文本中抽取实体和关系是知识和问答任务的关键技术。传统的多头模型预测所有片段对的关系类型,而由于关系

2、的稀疏性,片段对的负标签数量远大于正标签。同时,该计算方式导致计算量与句长度的二次方成正比,降低了模型的实用性。为解决该问题,快速实体关系抽取模型被提出。对于命名实体识别任务,实体的开始和结束标签分别对两个指针网络预测。在关系抽取任务中删除了不包含实体结束标签的语义片段对。该方法减少了片段对的数量并加快了关系抽取任务的推理速度。为了证明模型的有效性,在英语新闻数据集ACE05和荷兰语房地产数据集DREC上进行了实验。实验结果表明,与基线模型相比,该模型取得了有竞争力的性能,其推理速度在ACE05上提高了约1.4倍,在DREC上提高了约2.1倍。关键词:实体识别;关系抽取;神经网络;自然语言处理

3、;信息抽取文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2204-0327Fast Model for Joint Extraction of Entity and RelationYANG Dong1,2,TIAN Shengwei1,2,YU Long1,2,ZHOU Tiejun3,WANG Bo11.College of Software,Xinjiang University,Urumqi 830000,China2.Key Laboratory of Software Engineering Technology,Xinjiang U

4、niversity,Urumqi 830000,China3.Xinjiang Internet Information Center,Urumqi 830000,ChinaAbstract:Extracting entities and relations from plain text is a key technique for knowledge and question answering tasks.The traditional multi-head model predicts the relation type of all segment pairs,while the n

5、umber of negative labels forsegment pairs is much larger than positive labels due to the sparsity of relations.At the same time,this calculation methodcauses the calculation amount to be proportional to the square of sentence length,which reduces the practicability ofthe model.To solve this problem,

6、a fast extraction model of entity and relation is proposed.For the named entity recognitiontask,the start and end labels of entities are predicted by two pointer networks,respectively.Semantic segment pairs thatdo not contain entity end tags are removed in the relation extraction task.This method re

7、duces the number of segmentpairs and speeds up inference for relation extraction tasks.To demonstrate the effectiveness of the model,experiments areconducted on the English news dataset ACE05 and the Dutch real estate dataset DREC.The experimental results showthat the model achieves competitive perf

8、ormance compared with the baseline model,and its inference speed is improvedby 1.4 times on ACE05 and 2.1 times on DREC.Key words:entity recognition;relation extraction;neural network;natural language processing;information extraction基金项目:新疆维吾尔自治区重点研发项目(2021B01002);国家自然科学基金重点项目(U2003208);国家自然科学基金(61

9、962057)。作者简介:杨冬(1992),男,硕士研究生,CCF学生会员,研究方向为自然语言处理;田生伟(1973),通信作者,男,博士,教授,研究方向为人工智能、自然语言、生物信息处理,E-mail:;禹龙(1974),女,博士,教授,研究方向为自然语言、网络安全;周铁军(1976),男,高级工程师,研究方向为通信技术、自然语言处理;王博(1980),女,高级工程师,研究方向为广播电视发射、监测。收稿日期:2022-04-20修回日期:2022-07-20文章编号:1002-8331(2023)13-0164-071642023,59(13)以前的研究使用由命名实体识别和关系抽取5模块组成

10、的流水线模型解决此问题。但流水线模型存在两个主要缺陷:(1)错误从实体识别传递到关系抽取任务;(2)丢弃了实体识别和关系抽取的关联信息。联合模型克服了流水线模型的主要缺陷,其中一些模型取得了最优性能6。早期的联合模型7依赖于手动抽取的特征。最近的工作使用神经网络自动捕获特征8-12。Bekoulis等人13介绍了一个用于实体和关系抽取的联合模型,即多头模型。在实体识别任务中,该模型使用了条件随机场(conditional random field,CRF)层,在关系抽取任务中,使用了多头标注框架。如图1所示,实体对的关系类型通过实体结束片段对计算得到,多头模型中,所有片段对的关系类型均被计算,

11、导致多头模型的计算量正比于序列长度的平方。此外,大多数片段对不存在关系,关系标签的不平衡降低了关系抽取任务的性能。对于长序列,计算量随序列长度平方增长的问题则尤为严重。Huang等人14提出了使用BERT中文15作为编码器的联合模型,但没有解决计算量平方增长的问题。Li等人16将原始文本中实体和关系的联合抽取任务建模为多轮问答问题。他们为实体识别任务提出了一个指针网络,其中仅包含实体开始和结束标记。该框架非常适合捕获标签分层依赖关系,但必须对每个句子的所有实体和对应关系模板进行扫描,导致计算效率低,缺乏并行计算友好性。针对在多头模型的计算量问题13-14和关系标签的不平衡问题17,提出了实体识

12、别和关系抽取任务的联合模型。相比多头模型,该模型根据实体标注的结果,在关系抽取阶段只保留了带有实体结束标签的语义片段,减少了关系抽取模块中的语义片段对,将关系抽取任务所需的计算量,由句长度的平方转变为实体长度的平方,并缓解了关系标签的不平衡问题。该模型先识别实体,然后使用实体的末端片段预测实体对的关系类型,因此不会加剧实体识别任务的错误传播。由于删除片段对的操作发生在关系抽取模块,编码器能得到完整的语义信息。在流行的英语数据集(ACE05)和荷兰语数据集(DREC)上进行实验,与多头抽取框架13-14相比,提出模型在ACE05数据集上速度提高了约1.4倍,在DREC数据集上提高了约2.1倍。结

13、果表明提出模型成功解决了多头模型中,计算量随句长度平方增长问题;缓解了标签不平衡问题;错误传播问题未被加剧且语义信息完整性得到了保留;作为第一个关注联合抽取模型速度的工作,在文档级抽取方面有研究潜力。1相关工作实体和关系的抽取是自然语言处理(NLP)研究领域的一项基本而重要的任务。该任务的主要模型可以根据其结构分为两组:(1)流水线模型;(2)联合抽取模型。1.1流水线模型流水线模型有两个部分:(1)命名实体识别(namedentity recognition,NER);(2)关系抽取(relation extrac-tion,RE)。实体识别任务用于抽取实体,关系抽取任务随后预测实体之间的关

14、系。Chiu等人18使用混合双向长短期记忆(long-short term memory,LSTM)和卷积神经网络(convolutional neural network,CNN)编码器,提出了一个自动抽取单词和字符级别特征的模型,将实体识别任务转化为序列标记任务。为了利用上下文信息,Lample等人19使用了带有 CRF层的双向 LSTM。Qian等人20使用图卷积网络(graph convolutional network,GCN)来编码各种关系,例如依赖关系和相邻关系。因此,可以自动学习本地化和非本地化特征。Li等人21将实体识别任务定义为机器阅读理解(machine readingc

15、omprehension,MRC)任务。实体仅标注在开始和结束片段上,通过回答不同的问题抽取具有不同关系类别的重叠实体。赵丹丹等人22使用多头注意力与字词融合机制处理中文实体识别问题。对于关系抽取问题,文献23-25使用依赖树来抽取关系抽取任务中的句法特征。为了降低冗余数据,只选择了最短的依赖路径,缺点是会丢失一些关键信息。为了消除该缺陷,Gupta等人26集成了关系抽取的最短依赖路径和依赖子树。由于使用了递归神经网络(RNN)作为依赖树解码器,他们的模型难以训练和计算。对于实体识别和关系抽取任务,Wang等人27展示了一个具有两个独立编码器的复杂神经网络。黄梅根等人28通过关系分类任务预测出

16、可能包含的关系,将预测关系编码融合到词向量中,对每一种关系复制出一个实例,输入到元素抽取任务,通过命名实体识别预测三元组。1.2联合模型流水线方法有两个主要缺陷:(1)错误从实体识别传递到关系抽取任务;(2)丢弃了实体识别和关系抽取CLSBrentSadler,CNN,nearKirkukinnorthernIraq.SEQCLSBrentSadler,CNN,nearKirkukinnorthernIraq.SEQSadlerCNNKirkukIraqSadlerCNNKirkukIraq(a)多头模型(b)快速模型图1快速模型与多头模型的比较Fig.1Comparison between fast model and multi-head model杨冬,等:快速联合实体和关系抽取模型165Computer Engineering and Applications计算机工程与应用2023,59(13)的关联信息。为了解决流水线模型的缺陷,联合抽取模型得到发展,从单个模型中抽取实体和关系。文献6,29的模型基于复杂的特征工程,这需要大量的时间和精力。Miwa等人6提出了一种基于历史的

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2