ImageVerifierCode 换一换
格式:PDF , 页数:9 ,大小:1.29MB ,
资源ID:498030      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/498030.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于BERT和多头注意力的中文命名实体识别方法_孙弋.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

基于BERT和多头注意力的中文命名实体识别方法_孙弋.pdf

1、第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():基于 和多头注意力的中文命名实体识别方法收稿日期:修订日期:通讯作者:孙 弋 孙 弋,梁兵涛(西安科技大学 通信与信息工程学院,西安)摘 要:针对双向长短时记忆网络条件随机场(,)模型存在准确率低和向量无法表示上下文的问题,提出一种改进的中文命名实体识别模型。利用裁剪的双向编码器表征模型(,)得到包含上下文信息的语义向量;输入双向门控循环单元(,)网络及多头自注意力层捕获序列的全局和局部特征;通过条件随机场(,)层进行序列解码标注,提取出命名实体。在人民日报和微软亚洲研究院(,)数据集上的实验结果表明,改进模型在识别效果和速度方面都有一定

2、提高;对 模型内在机理的分析表明,模型主要依赖从低层和中层学习到的短语及语法信息完成命名实体识别(,)任务。关键词:命名实体识别;自注意力机制;模型;双向门控循环单元;机理分析中图分类号:文献标志码:文章编号:(),(,):(),()():;引 言随着信息技术及信息产业的快速发展,信息传播的主要方式由电报、信件逐渐转向了网络。为了从互联网海量的文本数据中抽取出有效的信息,发掘其隐藏的应用价值,通常需要用到自然语言处理技术。命 名 实 体 识 别(,)技术能识别出非结构化文本中具有特殊含义的实体,如人名、地名等。命名实体的准确识别可以促进自动问答、知识图谱构建等下游任务的研究。从 的发展历史来看

3、,大致可以将其方法分为以下几种。传统的基于规则和字典的方法。命名实体识别作为信息抽取领域中的一个细分任务被引入到各种测评任务中,大多针对英文文本展开研究。在中文领域,文献提出一种通过将词汇信息进行对齐,完成中文实体识别的方法;文献为进行人物属性信息(如性别、民族、籍贯等)的抽取,提出了一种基于规则的实体识别方法。在早期,命名实体识别实现主要依赖专家构造的规则和字典,通过这些规则和字典对要检测的文本中的实体进行命中。这种方法不仅需要花费大量的时间和精力去构造规则和字典,而且通用性较差,对于规则和字典外的实体,使用这种方法难以准确地将其识别出来。基于统计学习的方法。该方法融合了机器学习、统计学和语

4、言学的相关知识建立模型。常用的模型有 隐 马 尔 可 夫 模 型(,)、条件随机场模型(,)和最大熵马尔可夫模型(,)等。文献 提出一种 与 结合的泰语实体识别模型;文献采用条件随机场模型完成了方志古籍物产别名的抽取;文献将序列标注模型、卷积树模型和元决策树模型进行组合,完成对信息的抽取工作。这些统计学习方法的特征提取还是需要人工完成,模型在训练过程中,需要大量人工标注好的样本,其效果也不是特别出色。基于深度学习的方法。利用该方法进行实体识别时,通常被看作一个对输入序列进行标注的任务。通过建立对应的模型完成实体的标注识别。文献将双向长短时记忆网络、卷积神经网络及条件随机场模型进行有机结合,提出

5、了一种端到端的方式完成对实体的识别;文献融合了双向长短时记忆网络与条件随机场模型,并利用特定领域的数据集进行训练,得到了更丰富的词向量;文献将双向编码器表征(,)模型与双向长短时记忆网络条件随机场(,)模型相结合对中文实体进行识别;文献使用了参数更少的双向门控循环单元(,)网络并引入注意力机制对其进行改进,结果显示该模型提升了中文实体检测的效果。深度学习已经成为 任务中的主流方法,但由于其模型网络较深且参数较多,人们无法透彻理解模型决策的内在机理,因此,对深度学习模型的可解释性研究也是目前一个新的课题。文献分别从自解释模型、特定模型解释、不可知模型解释,因果可解释性及事前、事后可解释性进行了分

6、析研究,通过这些方法对深度学习中网络模型的决策过程或机理做出了一定程度的解释。本文针对中文命名实体识别中经典 模型识别准确率较低、训练时间较长的问题,提出一种改进的 模型。使用具有更强文本特征表示能力的 模型作为特征表示层,将其得到的语义向量序列输入 网络,获取上下文的抽象全局特征,并引入多头注意力(,)机制挖掘局部特征。最终经过 模块进行序列解码标注,提取最优的标注序列。本文模型本文提出的 命名实体识别模型如图 所示。图 模型结构图 整个模型主要由 层、层、多头自注意力层以及 层 个部分组成。接下来将依次对模型各个模块进行详细分析。层 模型是谷歌公司在 年提出的预训第 期 孙 弋,等:基于

7、和多头注意力的中文命名实体识别方法练模型。在 模型中使用了一种双向 编码结构,使得模型能够充分获取输入文本中的语义信息。在本文提出的改进模型中,层对输入文本作第 步处理。输入和输出根据下游任务的不同,模型的输入序列可以单句形式出现,也可以语句对的形式出现。在本文中,输入文本的向量由嵌入向量、分割向量和位置向量叠加得到。其中嵌入向量是输入序列中每个字符本身的向量表示;分割向量用于区分每一个字符属于句子 还是句子,如果输入序列只有一个句子,就只是用 表示;位置向量编码了输入中每个字符出现的位置。这些向量均在训练过程中通过学习得到。对于 模型的输出同样也有 种形式,一种是字符级别的向量表示,对应着输

8、入中的每个字符;另一种是句子级别的语义向量,即整个句子的语义表示。在本文的研究中,模型的输出采用了第 种形式,即输入序列的每个字符都有对应的向量表示,该输出接着作为输入传递给后序模块进行进一步的处理。编码层在 模型中,使用了多层双向 编码器对输入序列进行编码,其预训练语言模型结构见图。其中每一个 对应着一个单元编码器,是模型的输入,为字符向量,为模型的输出向量。图 预训练语言模型 模型中 编码器的核心是自注意力机制。整个模型采用多头自注意力获取多个子空间的特征表示。每个自注意力头将输入序列中任意 个字符之间的联系通过一个步骤直接计算出来,而不是像 系列模型那样需要经过若干步迭代才能得到,所以更

9、容易捕获输入序列中相互依赖的远距离特征,这些字符间的相互关系在某种程度上代表了其关联程度和重要性,再根据相互间的关联性调整每个字的权重,以获得每个字新的向量表示。字符新的表征不仅包含了该字符本身的含义,还包含了与序列中其他字符的联系,所以比单一的字向量表示包含的内容更丰富也更合理。模型中文序列经过 模型进行向量化表示后需要传入编码层进行全局特征提取,虽然 网络能够同时捕获前向和后向信息,但其网络结构较复杂,训练时需要更新的参数较多,训练时间较长,因此,本文对模型中的 网络进行优化,使用参数更少、训练速度更快但效果相近甚至更优的 网络进行全局特征提取。网络在 网络基础上进行了优化,将 个门缩减为

10、重置门和更新门,其中重置门控制前一时刻的隐藏状态有多少信息被遗忘,更新门控制前一时刻信息有多少传递到当前单元的隐藏状态中。单元中各状态计算表示为()()()()?()()()?()()()式中:表示更新门;表示 时刻的输入;表示重置门;?表示候选隐藏状态;表示 时刻单元的输出;表示 乘积;、和、分别为更新门、重置门的候选隐藏状态权重矩阵,在训练过程中不断更新。网络是由 层方向相反的 网络构成,输入序列被分别送入正向和反向 网络中进行计算,层网络分别用来捕获历史信息和后续信息,将输出按位置进行拼接就得到最终双向门控循环单元的输出。自注意力层为了更好地捕获输入序列局部特征,筛选重要信息以提升模型整

11、体的识别效果,本文在模型中加入了自注意力层。自注意力机制计算过程同注意力机制类似。相较于注意力机制,自注意力机制仅关注输入序列内部字符之间的注意力计算,寻找序列 重 庆 邮 电 大 学 学 报(自然科学版)第 卷中字符之间的联系。对于自注意力机制来说,常用 注意力进行计算,计算公式为(,)()()式中:查询矩阵、键矩阵、值矩阵 均通过状态矩阵与对应的权重矩阵进行点积计算得到,其中,状态矩阵为 模型的输出,权重矩阵是随机初始化的;为矩阵 和 的维度。注意力分数的计算过程中,先计算、矩阵乘法,并除以防止相乘结果过大,然后经过 归一化操作,将结果归一化为概率分布,并乘上矩阵 得到最终结果,在命名实体

12、识别任务中,一般取。为了获得多个子空间中文本的上下文特征,本文使用了多头注意力机制。多头注意力机制重复多次对矩阵、进行不同的线性映射并计算注意力分数,将每个注意力头的结果矩阵拼接起来再与一个随机矩阵相乘,得到的矩阵作为最终多头注意力的输出。计算表达式为(,)()(,)(,)()()()式中:表示注意力计算;表示第 个注意力头的计算结果;,分别表示矩阵,的权重矩阵;是对 个注意力头的结果拼接后对应的权重矩阵。层经过全局特征和局部特征提取后,模型已经学习到足够的信息进行词性标注,目前使用最广泛的标注模型是线性链条件随机场模型,下文简称条件随机场或。是一种基于无向图模型的判别式模型,通过训练获得全局

13、条件下的标注序列最优解,避免了标注不合理的情况。条件随机场模型的定义就是,给定了输入随机变量序列,计算随机变量序列 的条件概率分布()。设 为经过自注意力层处理后输出的特征矩阵,输入 层之后可以得到每个位置上标签的分数(,)为(,),()()式中:,为转移矩阵,大小为()(),为标签个数;,表示第 个字被标记为 标签的概率;为序列长度。预测序列 产生的概率为()(,)?(,?)()()式中:?表示真实标记序列;表示所有可能的标注序列。通过极大似然法对模型进行训练,使得正确标签的概率最大,可以表示为()(,)?(,?)()算法验证及机理分析为了验证本文提出的改进方法的有效性并对模型内在机理进行分

14、析,本节使用公开的人民日报和微软亚洲研究院(,)语料作为实验的数据集。实验数据及评价指标本文使用的数据集包括国内公开的 年 月份人民日报新闻标注语料和微软亚洲研究院 数据集。时间、日期、百分比等实体具有较为统一的格式,可以通过规则进行识别,并且能够获得较好的效果;而人名、地名和组织机构名由于无统一格式,识别较为困难。本文主要针对后者的识别效果进行研究。实验中用到的数据集按照 的比例划分为训练集、验证集和测试集,切分后各集合字符数量见表。表 数据集规模统计 数据集字符数量训练集验证集测试集人民日报 本文采用准确率、召回率 和 值作为模型识别效果的评价指标对语料库实体识别结果进行评估,各个指标的计

15、算公式为 ()()()式中,、和 分别表示真正例、假正例和第 期 孙 弋,等:基于 和多头注意力的中文命名实体识别方法假反例的个数。实验环境及参数配置本文实验基于 和 框架,并使用 显卡加速训练。训练过程中,使用 层的 作为预训练模型,设置 为,为,初始学习率 为,同时,为了防止训练过程中过拟合的问题,在 层的两端增加,并取值为。实验结果与分析本文设计了 组实验,分别验证所提出的改进模型的有效性和探究 模型隐藏层数的裁剪对模型的影响。模型有效性实验)为了验证本文提出的 命名实体识别模型在中文领域的优越性,分别对 模 型、模 型、模型、模型以及 模型进行了对比分析,并采用、值对模型识别效果进行评

16、估。以上 种模型在人民日报和 数据集上分别进行了实验,具体实验结果如表 表 所示。表 人民日报数据集测试结果 模型 单轮时间 表 数据集测试结果 模型 单轮时间 从表 表 的实验结果可以得出,本文提出的 模型做到了识别效果与训练时间的综合最优。首先,对比 模型和 模型。后者引入 模型取代了传统的 方式对输入序列进行向量表示,在 个数据集上分别带来了 和 的 值提升,说明 模型能够充分提取字符级,词级的特征并根据上下文语义环境动态地调整字符的向量表示,能够准确表达当前环境下的含义,进而提升模型的泛化能力,增强实体识别的效果。为进一步提升模型的识别效果,本文在 模型的基础上引入了多头注意力层来捕获局部特征。与 模型相比,引入多头注意力机制后,模型的 值分别达到了和,在这组对比实验中,多头注意力机制在多个子空间内对局部特征进行捕获,最终将从不同空间学习到的信息综合考虑来提升模型的识别能力。在识别效果得到提升的同时,由于模型的复杂度提高,模型的训练时间对应也大幅增加,这也是本文对模型优化的方向。对比 模型和 模型。将模型的 网络用结构更简单,参数更少的 网络替换后,模型在 个数据集上的 值分别

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2