融合笔画特征的命名实体识别方法

资源描述

1、投稿网址：年第卷第期，（）：科学技术与工程引用格式：蒋丽媛，吴亚东，王书航，等融合笔画特征的命名实体识别方法科学技术与工程，（）：.，（）：.融合笔画特征的命名实体识别方法蒋丽媛，吴亚东，王书航，张巍瀚，李懿（四川轻化工大学计算机科学与工程学院，宜宾）摘要汉字是象形文字，其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型（，）提取部首，命名实体识别准确率不高的问题，提出笔画组成编码器，用于获取汉字的字形特征，并将笔画字形特征向量和预训练的语言表征模型（，）输出的字向量进行拼接，将拼接后的向量放入双向长短期记忆模型与条件随机场（，）相连的标注模型（

2、）中进行命名实体识别。实验表明，所提的方法在数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征，准确率高出.。相较于使用提取的部首特征模型和加入词典的长短期记忆模型（），其准确率分别提升了.、.。关键词字形特征；中文命名实体识别；笔画组成编码器；动态词向量中图法分类号.；文献标志码收稿日期：；修订日期：基金项目：四川轻化工大学人才引进项目（）第一作者：蒋丽媛（），女，汉族，四川南充人，硕士研究生。研究方向：自然语言处理。：。通信作者：吴亚东（），男，汉族，河南周口人，博士，教授。研究方向：数据可视化与可视分析，人机交互。：。，（，），（），（，），（）（

3、），.，；命名实体识别（，）是指识别文本中的专有名词如职称、地名、人名的自然语言处理任务。中文的命名实体识别与英文的命名实体识别的不同点在于英文可以用空格作为分割，也可以通过提取前缀和后缀获取词语级的特征。由于汉字是象形文字，其各类实体的字形特征对于实体的类别划分有着重要作用。一些学者通过提取汉字的字形特征。虽然学习到了一些语法特征和语义特征，但其得到的字向量是静态的。一些学者通过对汉字的五笔组成编码或者卷积神经网络（，）获取汉字图片的字形特征，用以增强对字向量的表示。虽然在命名实体识别效果上有一定的提升，但模型训练时间较长且忽略了汉字本身的笔画组成。为了能够有效地利用汉字的字形特征，现提出

4、了一种融合笔画字形特征的命名实体识别方法。即采用模型对文本进行向量表示，并将其与笔画组成编码器提取的字形特征向量拼接，然后将投稿网址：拼接后的向量放入标注模型中，得到每个字的标签。首先，提出笔画组成编码器，并探究不同的字形特征提取方式对于命名实体识别的效果的影响；其次，将笔画组成编码器和模型相结合，提升命名实体识别效果；最后，在公开数据集上进行实验，并对种特征（笔画组成特征、部首特征以及图像特征）采用不同组合，证明笔画组成编码器的有效性。相关工作提升命名实体识别效果主要有两种方法。传统的方法是通过修改标注模型。如郑彦斌等通过双向对文本进行标注，等提出使用网络来代替，不仅保证了和相

5、当的正确率，而且带来了速度的提升。提取上下文信息取决于窗口的大小，虽然不断地增加卷积层最终也可以达到使每个字符获取到整个输入句子作为上下文信息，但是其输出的分辨表现力较差。现主要是通过修改序列标注模型的输入，并加入不同的特征，如字形特征、字义。.修改序列标注模型的输入序列标注模型的输入，主要是通过采用不同的语言模型对文本进行表示。传统的方法是通过获取静态的词向量表示，现主要通过预训练语言模型训练并得到动态的字向量。不同于静态词向量，动态字向量根据语境对同一个词在不同的语境中进行表示，从而丰富文本向量表示。预训练的语言模型主要有两种，一是自回归语言模型。自回归语言模型只能从单个方向利用上文或

6、者下文，不能同时利用上下文，无法提取上下文的信息用以增强序列的编码。如基于语言模型的词向量（，）、生成式预训练模型（，.）、.、等都是自回归模型。王铭涛等通过将模型表示的静态词向量和模型对字向量的输出进行拼接进行字向量的表达，但的特征提取器为，虽然在一定程度上兼顾了上文和下文，但其抽取特征的能力不如双向的强，且并行能力较差。二是自编码语言模型，如系列的模型。其用替换掉一些字，根据上下文在训练过程中对替换的字进行预测，计算其中的交叉熵损失。基于双向抽取特征能够有效提取上下文信息，采用对字向量进行动态表示，并加入字形特征。.提取字形特征的方式除了通过引入动态词向量来提升命名实体

7、识别的效果，一些学者根据汉字是象形文字的特点，通过提取汉字的字形表示来对汉字的字向量进行加强表示。提取字形特征的方式有种。一是对汉字的部首进行提取。蔡子龙等通过将汉字点阵图以行的方式进行读取，得到汉字的字形表示，但其单个汉字没有完整的信息。等通过对汉字整个字用最简化的部首代替，建立一个汉字部首列表，从而获得每个字的字形向量表示。但其文本向量表示为静态的词向量。二是用五笔拆解汉字通过语言模型获取字形组成。张栋等以及刘宇瀚等将每个字转成相应的五笔表示并对五笔表示进行编码，但其对汉字的编码采用的是模型，其特征编码能力不如模型强。三是将汉字转化为图片，通过提取图片特征获得字形表示。等对青铜器上的

8、汉字、篆书、繁体中文等采用进行分组卷积提取字形特征，并通过图像分类作为辅助，从而提取字形特征。虽然可以从汉字演变的角度上可以获取字形特征，但汉字的简化在构形系统和在文本中的分布情况并未随汉字的简化而改变。袁健等通过对进行改进，提出了对字形特征进行提取。唐善成等通过将汉字图像通过字形自编码器获取汉字的字形向量，其效果在命名实体识别和短文本语义相似度计算的任务中得到了一定的提升。但其采用卷积和上采样的方式获取字形向量表示，使得模型训练时间较长。等采用滑动窗口机制，对汉字表示和字形表示进行外积运算，虽然提供了字符级别的交互信息，但是带来了大量的噪声数据。降低噪声数据的关键在于找到能够有效区分文

9、字标注类别的特征。综上所述，汉字的字形特征的表示主要从五笔进行特征向量表示和提取图片特征进行向量表示入手，而忽略了汉字本身的笔画组成，而考虑到汉字笔画组成的研究，其文本向量表示为静态的词向量表示。因此，针对以上问题，通过模型得到动态字向量，在动态字向量的基础上以加入字形特征的方式增强字向量的表达。不同于加入单个的五笔特征的方式或者融合汉字的多种特征的方式进行命名实体识别，现通过对比字形特征提取方式找到具有区分度的字形特征表示方式，从而减少输入的维度，提升实体识别效果和模型运行的速度。采用笔画组成编码器提取汉字的笔画特征和部首特，（）蒋丽媛，等：融合笔画特征的命名实体识别方法投稿网址：征，采用

10、提取汉字的图像特征。将不同特征和编码的字向量进行拼接，将拼接后的向量输入模型中，找到能最大限度地提升命名实体效果的特征组合，得到每个字的最大概率的标签。方法融合笔画组成字形特征的命名实体识别，需要解决两个问题：一是如何对文本进行表示；二是如何获取笔画组成字形特征进行融合，从而提高命名实体识别效果。.文本的向量表示通过实验，通过系列模型中的预训练模型中的嵌入层获得字级别的向量表示方式。图字向量的表示.如图所示，将每个输入的每个字通过字嵌入层进行传递。文本序列在传入到字嵌入层时将每句话拆成一个列表，列表中由该句话的每个字组成，并在每句句首加上，每句话的句尾加上。在模型中，如果输入文

11、本序列为个字，其输出的向量维度为（，）。句子嵌入以帮助区分成对的输入序列。位置嵌入表示输入序列的位置特征。由于文本中最长的文本为个字。所以位置嵌入层是一个大小为（，）的查找表。第一维是字在文本中的位置，第二维是每个位置用维的向量进行表示。即相同的字在不同的位置出现会有不同的向量表示。通过将三部分的嵌入相加，并将对应元素进行相加得到文本的向量表示。.字形特征的获取由于获取字形特征有不同的方式，验证了从图片的角度获取字形特征和从笔画组成的角度获取字形特征。探讨不同的特征组成对汉字命名实体识别的影响，找到较为合适的汉字特征表达。.通过获取通过将每一句话转成汉字图片嵌入向量，其次将每句话的

12、图片向量表示传入来获取每句话中每个字的字形特征表示。其中汉字图片来自新华字典。采用的结构网络如表所示。将句子转化成的图序列，图中没有的数字，字典图像中没有的字符（如、）等，会给一个默认的值，其图序列如图所示。首先通过三组池化层，正则化层，最大池化层。其中主要是为了提高训练速度。每层卷积之后采用作为激活函数。其提取的文字特征如图所示。表结构结构设置卷积核，通道数，填充通道数卷积核卷积核，通道数，填充通道数卷积核卷积核，通道数，填充通道数卷积核通道数输出通道数图图序列.图提取的文字特征.科学技术与工程，（）投稿网址：.通过笔画组成

13、编码器获取通过笔画组成编码器获取的工作流程如下。（）通过训练集得到词汇表，接着通过笔画组成表得到一个笔画的列表，然后根据词汇表，找到每个字的对应索引，以及笔画组成。（）将训练集中的一句话转化成每个字的笔画表示，从而得到每一句话的笔画向量表示。如果只是通过简单的笔画向量进行正则化表示，那么靠后的笔画会得到较大的权重，但是笔画先后顺序，字的笔画的先后顺序对特征表示作用不大。所以通过简单的正则化，并不能表示特征。（）通过中的模块得到初始特征表达向量。整个数据集中部首表数量有个部首，笔画表有个笔画。.模型的介绍采用的模型结构如图所示。其主要修改模型的输入。通过模型获得字的动态向量表示，通过

14、笔画组成编码器获得字形的特征向量，然后将字形特征向量和动态字向量进行拼接，输入模型。从图片的角度提取字形特征，则是通过获得每句话中每个字图像的特征，然后将其与预训练模型的输出拼接。图加入字形特征的模型结构.模型输出的每个字的嵌入与笔画编码器输出的笔画字形特征拼接，使用双向的来提取每个字在其上下文的语义表达向量。通过遗忘上一时刻的信息，将无效的信息丢弃。记忆当前时刻的信息，向下一时刻传递有效的信息。其具体步骤如下。步骤计算遗忘门的值，选择要遗忘的信息。（，）（）式（）中：、和分别为激活函数、偏置向量和权重矩阵；、分别为前时刻的输入词、上一时刻的隐藏层状态和遗忘门的值。步骤计算记忆门

15、的值，选择要记忆的信息。（，）（）（，）（）式中：、分别为输入门的输出向量、输入门的参数矩阵以及输入门的偏置向量；、分别为神经单元的临时状态向量、神经单元的参数矩阵以及神经单元的偏置向量。步骤计算当前的神经单元状态。（）式（）中：表示矩阵对应位置元素相乘。步骤计算输出门和当前时刻的隐藏层状态。（，）（）（）（）式中：、分别为输出门的参数矩阵和偏置向量。然后将前向和后向的隐藏层状态序列结合，最终得到的输出序列。层为每个字的所有标签预测一个数值，取其中的最大值作为该字的最终标签。由于来进行解码时不会考虑到当前的字的上下文的关系，会导致预测出的结果不符合序列的排序。因此加入了，其在解码时会

16、维护一个概率转移矩阵，在解码时依据当前的转移矩阵来判断当前的字的标签。以此降低预测错误的概率。并且可以考虑到当前字的上下文关系，从而避免了不符合要求的实体片段生成。对于一个输入语句有，（）蒋丽媛，等：融合笔画特征的命名实体识别方法投稿网址：个字（，）每个字可能的标签有个，标记为（，）。一句话可能的标注序列有个。的作用是给每一个可能的标注序列计算一个分数，通过训练使得唯一的真实值标签分数最高。其损失函数为，（）（）式（）中：为字的索引；，为转移分数，由层学习得到；为发射矩阵，由层输出；为标签的索引；为句子序列的第条可能路径的分数。实验和分析使用的数据集是简历数据集，随机选择了中国股票市场上公司高管的份简历摘要，并用手动注释了种类型的命名实体。训练集、验证集和测试集的比例为。使用的序列标注方法为（）。其标注的实体个数和类别如表所示。实验的效果的评价指标为准确率（）、和召回率（）。实验中设置的参数如表所示。.笔画组成编码器和标注模型首先以作为基础的命名实体识别标注模型。探究部首、笔画组成和图像对于命名实体识别效果的影响。不同于等的方法，在获取到特征向量的组成

展开阅读全文

融合笔画特征的命名实体识别方法_蒋丽媛.pdf