基于BERT的煤矿装备维护知识命名实体识别研究

资源描述

1、年月第卷第期机床与液压 .：.本文引用格式：曹现刚，吴可昕，张梦园，等基于的煤矿装备维护知识命名实体识别研究机床与液压，（）：，（）：收稿日期：基金项目：国家自然科学基金重点资助项目（）；国家自然科学基金面上项目（）作者简介：曹现刚（），男，博士，教授，研究方向为设备健康维护与管理、机器人技术、煤矿机电装备智能化。：.。通信作者：吴可昕（），女，硕士研究生，研究方向为设备健康维护与管理。：.。基于的煤矿装备维护知识命名实体识别研究曹现刚，吴可昕，张梦园，段雍，李鹏飞，（.西安科技大学机械工程学院，陕西西安；.陕西省矿山机电装备智能监测重点实验室，陕西西安）摘要：为解决煤矿装备维护

2、知识中语义复杂、实体识别困难的问题，以自建的煤矿装备维护知识语料库为研究对象，提出一种基于的煤矿装备维护知识命名实体识别方法。利用获取词的语义、归属及位置信息，增强词向量的语义表征能力；然后将词向量序列输入层，获取上下文信息并提取长距离特征；最后利用对序列标记进行合法性约束；并对模型进行超参数优化，减少特征损失并提高学习效率。实验结果表明：所提方法准确率、召回率和值显著提升，分别达到.、.、.，证明该模型有效改善了煤矿装备维护实体中一词多义及重叠实体识别困难问题。关键词：煤矿装备维护；命名实体识别；一词多义；重叠实体中图分类号：，（.，；.，）：，.，.，：；前言煤矿装备维护知识具有

3、复杂、分散等特点，存在共享度低、缺乏有效管理等问题，影响了煤矿装备智能维护的效率，制约了煤矿智能化的发展。一些学者利用深度学习方法进行装备维护和建立大数据管理系统对装备维护知识进行管理，这些系统提高了知识管理的效率，但缺乏知识关系连接使得信息利用率低，为此，曹现刚等构建了煤矿装备维护知识图谱。命名实体识别（，）是构建煤矿装备维护知识图谱的关键技术之一，实体识别的准确率、召回率、完整性直接影响知识图谱的构建质量。传统的命名实体识别方法主要有条件随机场（，）模型、隐马尔可夫模型（，）等，但这些模型人工参与度高，效果欠佳。随着深度学习的发展，提出了命名实体识别模型；等提出了命名实体识别

4、模型，获取上下文的序列信息；各学者改进方法用于实体识别研究。目前实体识别的研究在汽车、生物、医疗等领域均有发展。然而这些方法注重字符之间的特征提取，难以表征一词多义，实体识别准确率较低。为解决此问题，等提出（）语言预处理模型来表征词向量，生物、化学等领域学者将它应用到领域实体抽取研究中。在目前研究中，煤矿装备维护领域的面临诸多问题需要解决：首先，领域文本数据中存在大量的技术词汇、特定术语及缩写等；其次，文本中存在大量歧义文本及重叠实体，传统的模型不能很好地解决此类问题。针对煤矿装备维护领域研究面临的挑战，本文作者在构建的煤矿装备维护领域数据集上使用深度学习方法进行研究，探究如何在语

5、义复杂的领域数据环境下较好地实现模型构建；针对煤矿装备维护领域数据集，提出一种专用领域模型的建立思路；丰富词向量的模型，获取长距离特征信息的模型与约束模型结合应用于煤矿装备维护命名实体识别，改善一词多义及重叠实体识别困难问题。实验设计文中使用煤矿装备维护自然语言文本对语义复杂的领域数据集命名实体识别进行建模研究。通过网页爬虫、煤矿装备维修手册、维修案例库等获取煤矿装备维护文本集合，在中存在实体集合，根据实体中字符开始和结束添加（，）标注信息。依据煤矿装备维护实体特点，文中实体类型主要标记为、，分别表示煤矿装备名称、装备部件名称、装备状态及故障现象，实体标注策略如表所示，数据标注

6、示例如表所示。表实体标注策略.实体类型起始标记中间标记结束标记装备名称单个装备名称部件名称单个部件名称装备状态单个装备状态故障现象单个故障现象非实体表煤矿装备维护数据标注示例.句子序列标注带式输送机输送带跑偏“”“”“”“”“”“”“”“”“”“”液压牵引部产生异常声响“”“”“”“”“”“”“”“”“”“”“”研究过程如下：首先将数据集按照的比例分成训练集、验证集和测试集；然后使用标注工具将文本转换为标注格式，得到标注数据集；最后构建基于的煤矿装备维护模型，实现输入自然语句，模型抽取出句子中包含的实体集合及各实体的实体类型。煤矿装备维护领域实体识别方法的实验流程如图所示。其中

7、，数据预处理过程采用领域词典比对及人工复查的方式实现；此外，为突出模型对复杂语义的处理能力，人为随机添加长难语句及含有多种实体的自然语句。图实验流程.机床与液压第卷模型对比和构建.对比模型为验证文中提出模型的有效性，设计组对比实验。模型为模型，利用进行预训练，然后采用模型选择特征进行命名实体识别，获取静态词向量，因此模型具有局限性。模型为模型，可以充分利用词的上下文信息，输出字的标签分值，但不能保证在序列标注任务中符合要求，故加入设置约束条件，保证标签合法。模型为模型，利用获得远距离动态字向量的特征，再加入对它进行分类。.基于的模型构建包含复杂语义的命名实体识别

8、问题，一般采用多特征融合嵌入方法，文中针对语义复杂环境下专用领域数据集，基于建模，提出一种基于的煤矿装备维护知识命名实体识别模型。根据煤矿装备维护领域实体的特点，利用层将输入语料进行预训练得到含有丰富语义特征的词向量；再由层进一步获取上下文信息；由于层忽略了标签间的依赖关系，因此在模型中引入层，来保证输出标签合法，提高模型预测的准确率和召回率。模型主要分为三部分，结构如图所示。图煤矿装备维护知识模型.层目前，模型训练由于其考虑上下文信息、效果好、速度快及通用性强的特点被广泛应用在各种任务中，但它作为一个静态的预训练模型，不能解决词的多义性问题。由于模型使用双向作为编码器

9、预训练深度双向表示，具有很强的语义表征能力，所以文中采取获取语境化的词向量来提高实体识别性能。模型主要进行（）和（）任务。通过随机掩盖一些词，模型根据上下文预测隐藏词的意思；的作用是判断句子是否连续，使得模型可以获取句子之间的语义信息。文中，输入为具有连续语义的自然文本，模型结构如图所示。对输入语料进行预处理，首先通过分词处理得到分词的文本序列；然后对分词进行，并在句子开头添加特殊标记，句子间使用进行分割；表示输入句子中每个词的词向量，通过得到每个词向量的个部分：词表征（）表示词的初始向量；段表征（）表示当前词属于哪个句子；位置表征（）表示

10、当前词在句子中的位置索引；然后将这些向量之和输入到层双向网络中，最终得到输出的词向量含有丰富的语义特征。通过获取上下文特征信息，输出词向量包含词、段及位置信息，使得不同位置的同一个字，输出词向量不同，弥补了“一词一义”的缺点。图预训练模型.通过双向获取上下文特征信息，再将训练好的模型进行微调使其性能获得提升，但在长度超过字符的句子抽取时会影响性能，所以文中在的基础上加入层以增强模型抽取性能。第期曹现刚等：基于的煤矿装备维护知识命名实体识别研究 .层模型通过输入门、遗忘门和输出门来处理序列化信息。利用复杂的门机制来解决因超参数设置不当等造成的梯度消失或爆炸问题，加快了训练

11、收敛速度，并快速准确地检测出序列之间的长距离依赖。模型由前向和后向组成，其前向隐层状态为（，），后向隐层状态为（，），加权求和得到时刻的隐含状态，。完整的隐状态序列接入线性层，自动提取句子特征，将其记为矩阵（，），的大小为，其中为词的个数，为标签个数，表示第个词的第个标签的分数。模型编码过程示例如图所示。图模型编码过程.层能处理上下文关系，但却未考虑标签的依赖关系，是一个序列标记任务，故文中在完成特征学习后，引入层完成全局最优序列标注。对于预测序列（，），使用转移分数矩阵作为参数，表示标签转移为标签的分数，得到它的分数函数（，）为（，），（）由公式（）得到归一化概

12、率为（）（，）（，）（）为更好地计算损失值，由公式（）计算得到似然估计最大化的标签集合：（）（，）（，）（）最后模型采用算法求解最优标签序列：（，）（）实验结果与分析.数据集及评价指标第节介绍了文中所用实验数据集的生成方法，煤矿装备维护知识数据集由个字符和个句子组成，文中将语料库按照的比例分成训练集、验证集和测试集进行实验。实验采用准确率、召回率和值作为模型的评价指标，评价指标越高，代表模型性能越好。计算方法如下：|（）其中：为模型识别正确的实体数；为模型识别到的不相关实体个数；为相关实体但模型没有未识别的个数。.实验设置及评价指标文中实验环境

13、为（）（）.、为，版本为.，版本为.。训练过程中利用权重衰减系数（）来防止过拟合，梯度裁剪（）防止梯度爆炸。个超参数的调整对模型性能有重要影响。学习率是其中最重要的，若学习率过小，模型收敛速度过慢；若学习率过大，会引起代价函数的振荡。模型超参数设置如表所示，模型在训练集、验证集和测试集上均取得了良好的效果。表模型参数配置.参数名称说明参数取值标签数双层尺寸批次大小最大单个步长梯度裁剪损失率学习率隐藏层大小权重衰减系数.实验结果分析为说明文中模型的优势，采用、机床与液压第卷、和做对比实验，基于煤矿装备维护数据集，得到模型识别结果，如表所示；在煤矿装备维护数据集中验证集不同模型变

14、化趋势如图所示。表煤矿装备维护数据集不同模型对比实验单位：.：模型图不同模型值变化趋势对比.通过表可以发现在煤矿装备维护数据集上不同模型的识别效果：（）较，、分别提高了.、.、.，表明可以获得丰富的语义信息；（）较，、分别提高了.、.、.，表明引入能有效解决“一词多义”问题；（）比较和，准确率提高了.，表明在获取长距离上下文信息有较大优势，能有效解决重叠实体问题；通过图可知：模型在训练初期就能达到一个较高的水平，随着迭代次数增加，值的领先优势趋于稳定。为进一步验证模型有效性，选用文中模型与表现较好的模型对煤矿装备维护语料中各类实体序列标注的值作对比，结果如表所示。表

15、优势模型在各类实体上的识别结果.模型各实体类型值从表可以看出：种模型对（装备部件名称）和（装备状态）标签的序列标注的误差大于其他标签，表明输出词向量含有更丰富的语义信息。实验结果表明文中提出的模型能够有效解决煤矿装备维护知识中一词多义及重叠实体识别难等问题。结论（）针对煤矿装备维护知识中存在的大量一词多义、重叠实体问题，基于的多层集成结构，增强词向量的泛化能力，提出了基于的煤矿装备维护知识模型。（）完成了领域数据集构建工作，并对数据集进行预处理，保证训练集和测试集的有效性；多次调整参数训练，得到最优超参数，提高模型学习的性能和效果。（）通过模型对比实验及模型在各类标签中的

16、识别结果，验证了层、层、层的必要性及模型解决煤矿装备维护语义复杂问题的可行性。（）通过实验分析可得，基于的煤矿装备维护知识模型获得了最优、值.、.，证明模型能够有效解决煤矿装备维护知识中一词多义及重叠实体识别难等问题。参考文献：，（）：邓生财数据驱动下的设备可预测性维护管理：以滚动轴承为例重庆：重庆工商大学，：，侯大立，王宇，成凡基于数据驱动的空压机集群智能诊断系统机床与液压，（）：，（）：曹现刚，罗璇，张鑫媛，等煤矿机电设备运行状态大数据管理平台设计煤炭工程，（）：，（）：谭章禄，马营营，袁慧煤炭大数据平台建设的关键技术及管理协同架构工矿自动化，（）：，第期曹现刚等：基于的煤矿装备维护知识命名实体识别研究，（）：刘孝孔，鲁守明，赵仁乐，等数据平台在煤矿设备管理中的探索应用设备管理与维修，（）：，（）：曹现刚，张梦园，雷卓，等煤矿装备维护知识图谱构建及应用工矿自动化，（）：，（）：彭春艳，张晖，包玲玉，等基于条件随机域的生物命名实体识别计算机工程，（）：，（）：乐娟，赵玺基于的京剧机构命名实体识别算法计算机工程，（）：，（）：，：，：，：，：，（）：马建红，张亚梅，姚爽

展开阅读全文

基于BERT的煤矿装备维护知识命名实体识别研究_曹现刚.pdf