收藏 分享(赏)

融合预训练模型与神经网络的实体关系抽取_邓成汝.pdf

上传人:哎呦****中 文档编号:2582224 上传时间:2023-08-01 格式:PDF 页数:7 大小:1.78MB
下载 相关 举报
融合预训练模型与神经网络的实体关系抽取_邓成汝.pdf_第1页
第1页 / 共7页
融合预训练模型与神经网络的实体关系抽取_邓成汝.pdf_第2页
第2页 / 共7页
融合预训练模型与神经网络的实体关系抽取_邓成汝.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 年月第 卷第期计算机工程与设计 融合预训练模型与神经网络的实体关系抽取邓成汝,凌捷(广东工业大学 计算机学院,广东 广州 )摘要:为进一步提高实体关系抽取的效果,对传统标注方案进行改进,构建一个融合预训练模型和神经网络的联合抽取模型。利用 ()和 ()对文本进行编码,对上下文信息进行建模后,通过 ()识别实体,利用 ()进行关系分类。在中文数据集 上进行消融实验和对比实验,此模型的 指标达到 ,精确率高达 ,两项指标比当前主流模型 分别提高了 和 ,实验结果验证了该模型的优势。关键词:实体识别;关系抽取;预训练模型;技术;技术;神经网络;联合抽取中图法分类号:文献标识号:文章编号:():收稿

2、日期:;修订日期:基金项目:广东省重点领域研发计划基金项目();广州市重点领域研发计划基金项目()作者简介:邓成汝(),男,广东云浮人,硕士研究生,研究方向为网络信息安全技术;通讯作者:凌捷(),男,广东梅州人,博士,二级教授,专业会员,研究方向为网络信息安全技术。:,(,):,:;引言早期的实体关系抽取技术研究主要基于规则和词典驱动,这类方法需要依靠专家制定规则,费时耗力且可移植性较差;随着人工智能的发展,机器学习被引入到实体关系抽取的研究中,主要集中在基于特征向量和基于核函数的方法;随着深度学习的崛起,学者们将 ()、()、和 ()等神经网络应用到实体关系抽取的工作中,神经网络对实体关系抽

3、取的研究有着极大的推进作用;年预训练语言模型 横空出世,迎来了自然语言处理的领域新纪元,经过大量语料预训练的语言模型,具有很强的语义表征优势,能提高词向量隐藏表示的准确性。尽管此前的研究取得不少成果,但仍有提升的空间。为了 进 一 步 提 高 实 体 关 系 抽 取 的 效 果,本 文 参 考 了 文献 利用参数共享来实现联合抽取的思想,对传统标注方案进行改进,并构建了一种融合预训练模型和神经网络的实体关系抽取模型。在公开中文数据集 上进行消融实验和对比实验,所提模型的 指标达到 ,精确率高达 ,两项指标相比当前最先进的模型 分别提高了 和 。实验结果表明,本文模型有利于提升实体关系抽取效果。

4、本文的主要贡献如下:计算机工程与设计 年()对传统标注方案进行改进,将实体类别信息和主宾语属性加入标签。先识别主语实体,共享向量后再识别宾语 实 体,能 有 效 缓 解 实 体 冗 余 问 题 并 提 高 实 体 识 别准确率。()基于改进的标注方案,构建了一个融合预训练模型和神经网络的联合抽取模型。()在数据集 上进行了实验,所提模型两项指标相比当前最先进的模型 分别提高了 和 ,实验结果验证了本文模型的优势。相关工作实体关系抽取是自然语言处理领域的热门方向之一。经过国内外学者的多年探索研究,已取得较为丰富的研究成果。近年来,基于神经网络的关系抽取方法以其人工干预少的优点成为研究热点。神经网

5、络实现了文本语义特征的自动提取,与利用统计方法实现关系抽取的模型相比,神经关系抽取方法能有效地捕获文本信息。基于神经网络的关系抽取模型主要分为“流水线方法”和“联合学习”两大类。流水线方法,即通过两个独立的任务提取进行关系三元组的提取:对输入的语句运行命名实体识别以提取出所有实体;对提取到的实体对进行关系分类。后续的工作主要根据神经网络结构的多样性,提出了一些改进的模型。文献 提出了多层注意力结合 的模型,捕获了特定实体和特定关系的注意力,以便更好地识别复杂上下文 的 情 况。针 对 只 能 捕 获 局 部 特 征 的 缺 点,文献 提出基于 的关系提取模型,利用 学习实体之间的远程依赖关系。

6、并利用注意力层组织单词层面的上下文信息,利用张量层检测两个实体之间的复杂连接。文献 结合 与注意力机制来进行关系抽取,使得模型能够更充分地捕获上下文有效信息。文献 验证了 可以应用于关系数据建模,通过在关系图中执行多个信息传播步骤的编码器模型来丰富分解模型,显著提高了模型性能。文献 用文本标记代替实体标记,通过两个独立的编码器对实体识别和关系分类模型进行编码,模块之间不共享参数,最后使用不同的特征来预测实体和关系类型。该论文取得了 的成绩,打破了联合抽取模型优于流水线模型的一般规律。由于流水线方法忽视了两个任务之间的潜在交互,并且存在错误传播等缺点。研究自然语言处理的科学家们,尝试探索出另外一

7、种处理方法,即联合学习。意图将实体识别和抽取关系类型联合成单个任务,能更好地整合实体和关系的信息,缓解了错误信息的积累和传播。文献 构建了一个基于句法结构的开放式实体关系联合抽取模,并在大规模地质领域语料中进行了实验。文献 利用 对句子中的语法结构信息进行编码,同时创新了实体标注方案,构建了一个联合抽取模型。文献 将实体关系提取任务转换为问答任务,即实体和关系的提取转化为从上下文中识别答案跨度的任务,使用阅读理解方法进行关系提取。文献 将实体关系抽取作为一个多头选择问题,使用 函数来进行关系预测,更有利于判断出两个实体之间存在的多种关系的情况。文献 提出一个基于对比学习的生成式抽取框架,创新地

8、加入了批处理动态掩蔽和三重校准两种机制来提高模型性能,并取得 的成绩。文献 引入了一种新的握手标注方案,将联合抽取描述为一个标签对链接问题,使用笛卡尔积将每个关系类型下实体对的边界标签对齐,该论文巧妙地解决重叠关系问题。本文模型本文的实体关系联合抽取模型由个组成部分:嵌 入 层、编 码 层、实 体 提 取 层 和 关系分类层。本文模型架构如图所示。嵌入层在处理自然语言的过程中,词向量具有相当重要的意义。相比 和 等静态词向量,使用 编码后得到的词向量,具有更强表征能力。是在 的基础上进行改进的模型,主要改进了以下几个方面:训练时间更长,更大,数据更多;删除了相邻句子判断任务;采用动态掩盖策略,

9、以 种不同的方式对序列进行掩码;使用 ()字符编码;调整优化器参数。的模型架构与 大致相同,主要是由多个 的 层堆叠而成。利用自注意力机制和全连接层来对输入的文本进行建模,利用多头自注意力算法对句子中每个单词相互之间关系进行计算,并通过上述关系来对序列中的每个单词的权重进行调整。这样输出的词向量除了包含单词本身的词义,还隐含了该词与其它词的关系。所以经过 编码的向量,可以学习到序列内部的长距离依赖关系。的模型架构如图所示。编码层为了进一步捕获上下文特征,获取更全面的语义信息。本文利用 对输入的文本信息编码成词向量,再采用 进一步捕获文本中所隐藏的语义信息,最终输出包含隐藏信息的序列。是 的一种

10、变体,能动态地捕获序列数据的信息,但存在梯度消失或梯度爆炸问题。创新性地加入了记忆单元和门限机制,对输入的信息进行丢弃、重组和传递,使得神经网络学习到文本中跨度较远的依赖关系,对于 网络结构梯度异常的缺陷实现了有效缓解。图所展示的是其组成结构。第 卷第期邓成汝,凌捷:融合预训练模型与神经网络的实体关系抽取图本文模型架构图 模型架构图 网络结构 的关键原理公式如下(,)()(,)()(,)()(,)()()()其中,()表示 激活函数,()表示 激活函数,、和是权重矩阵,、和是偏置向量,是上一时刻 单元的输出,是当前时刻的输入。在序列标注问题中,学者们研究后发现,仅依靠前文的内容来计算隐藏状态存

11、在的不足,而 的结构局限了它只能捕获前文的内容,而无法编码后文的内容。因此,本文分别采取前向 和后向 进行编码,然后将这两部分信息进行拼接作为最终输出。捕获双向语义依赖的能力,使得模型能够充分地对上下文信 息进行建模。本文通过上述个公式可得前向 输出向量为,以及后向 输出向量为。再利用式()将前后向量进行整合,得到 的输出。词向量序列,经过编码后,最终输出包含隐藏信息的序列,()实体提取层 标注方案本文对传统“”标注方法进行改进,在“”的基础上将实体类型和主宾语属性加入标签。“类型”标注主语开头位置,“类型”标注宾语开头位置,“类型”标注主语中间位置,“类型”标注宾语中间位置,而“”则 是 标

12、 注 非 实 体 位 置。标 注 方 案 如 图所示。解码原理本文使用 算法对序列进行解码,分别识别出句子中的主语实体和宾语实体。如果简单地使用 函数对序列进行解码,则无法处理相邻标签之间的依赖关系,计算机工程与设计 年图标注方案可能会存在“主语人物”,后面是“主语地名”这种明显错误的问题。而 可以考虑到标签之间的依存关系,通过转移矩阵对标签进行约束进而提高识别准确率。输入序列,输出预测序列,解码步骤如下:序列转换到序列的得分函数为(,)(,),()其中,为转移矩阵,表示从标签转移到 标签的转移分数;为发射矩阵,表示第个词为标签的发射分数。利用 进行归一化,序列从转换到的概率为()()(,)?

13、(,?)()训练过程中,将正确标签序列的对数概率最大 ()(,)?(,?)()式()的作用是鼓励模型生成正确的标签序列。在解码时,式()采用维特比算法求解出得分最高的序列作为最优序列?(,?)()实体识别得到概率最大的正确标签序列。根据标注规则,“主语类型”是主语开头位置,“主语类型”是主语中间位置,即可抽取出主语实体集合 (,)。按相同 的 方 法 完 成 宾 语 实 体 的 抽 取,可 得 宾 语 实 体 集 合 (,)。主语提取器与宾语提取器的不同之处在于,主语提取器的输入是 层输出的序列,而宾语提取器的输入是由序列与主语实体向量的均值拼接而成,如图和图所示。实体提取器损失函数损失函数是

14、由负对数似然可得,主语提取器的损失函数 (?(,?)(,)()同理,可得宾语提取器损失函数 (?(,?)(,)()图主语提取器图宾语提取器 关系分类层将所有实体向量的均值与序列进行拼接,成为序列(,)输入关系分类器中,完成实体关系三元组的抽取。具体处理步骤如下:首先,输入序列(,),通过 进一步提取特征,输出序列?,?()()然后,利 用 全 连 接 层 将 其 映 射 为 关 系 分 类 的 得 分 (,),再利用 ()函数进行归一化 (,)(?)()(,)(,)()最后,对于给定的关系集合,通过 ()函数选出得分最高的关系。至此,实体关系三元组抽取完成(,)(,)()关系分类器采用交叉熵损

15、失函数,交叉熵可用于衡量多种分布之间的相似性,因此也可以判断网络结构预测的输出与 期 望 输 出 的 接 近 程 度。关 系 分 类 器 的 定义如下 (?(,)()其中,?为真实值,为预测值,为 正则项,为样本数量。实验与结果分析 实验数据集本文所用的实验数据集是百度公司公开 数据第 卷第期邓成汝,凌捷:融合预训练模型与神经网络的实体关系抽取集,其创建的本意是百度公司举办的信息抽取竞赛所用。数据集的文本来源与百度的所有网站信息,首先利用远程监督得到粗粒度的数据,再结合众包的信息人工细化而成,它包含了 种常用的关系类型,涵盖了现实生活中的各种领域 的 文 本数 据,如新闻、娱 乐和文学 等。其

16、 数量 分 布见表。表数据集分布情况名称句子数量训练集 验证集 测试集 实验设置实验的硬件环境:为 ()(),为 ,显卡为 。实验的软件环 境:系 统,;预训 练 模 型 为 。模 型 的 超 参 数见表。表模型超参数参数值词向量维数 系数 优化算法 学习率 正则化系数 模型采用有监督的方式训练,同时使用 正则化和 防止过拟合。在训练过程中,将主语提取器、宾语提取器和关系分类器进行联合优化,因此模 型的 损 失 值 由各模块损失值加权求和所得 ()其中,是主语提取器的损失函数,宾语提取器的损失函数,是关系分类器的损失函数,、是权重因子。对比模型介绍为了验证本文模型的有效性,作者分别进行了消融实验与对比实验。其中对比的模型如下:文 献 提 出 了 一 个 带 有 复 制 机 制 的 模型,利用多任务学习完成三元组的提取。通过添加一个非线性全连接层,以便模型完成头部实体和尾部实体的单独分布。:文献 提出了一种新的三元组表示方法,并结合基于指针网络的解码方法。使得在每个时间步提取一个单词的 模型,可以在句子中找到多个实体重叠的元组和多标记实体的元组。:文献 利用图卷积神经网络实现了的中文文本

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2