收藏 分享(赏)

基于BiLSTM模型的冶金领域国家标准指标识别研究_夏磊.pdf

上传人:哎呦****中 文档编号:498222 上传时间:2023-04-07 格式:PDF 页数:7 大小:1.98MB
下载 相关 举报
基于BiLSTM模型的冶金领域国家标准指标识别研究_夏磊.pdf_第1页
第1页 / 共7页
基于BiLSTM模型的冶金领域国家标准指标识别研究_夏磊.pdf_第2页
第2页 / 共7页
基于BiLSTM模型的冶金领域国家标准指标识别研究_夏磊.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年第2期(上)/总第624期87学术研讨基于BiLSTM模型的冶金领域国家标准指标识别研究 夏 磊 方思怡*解 凌 蔡 焱 顾晓虹(上海市质量和标准化研究院)摘 要:冶金行业为集成电路、人工智能、航空航天等重要领域提供必不可少的金属原材料。冶金国家标准是重要的基础性战略资源,在冶金产业的高质量发展中发挥技术性支撑作用。国家标准文本中蕴含大量的关键技术性指标,人工逐一识别并抽取的模式在大数据时代已无法满足数字化转型的需求。本研究采用深度学习算法,对冶金领域的国家标准文本分别开展RNN、GRU和BiLSTM模型的对比实验,根据模型性能择优选取最优模型。研究结果显示BiLSTM模型在冶金领域

2、国家标准指标识别的表现上最好,由此采用BiLSTM为该领域标准指标识别的深度学习模型。关键词:冶金,国家标准,标准指标识别,深度学习,BiLSTMDOI编码:10.3969/j.issn.1002-5944.2023.03.014Research on the Identifi cation of National Standard Indicator in Metallurgical Field Based on BiLSTM ModelXIA Lei FANG Si-yi*XIE Ling CAI Yan GU Xiao-hong(Shanghai Institute of Quality

3、 and Standardization)Abstract:Metallurgy plays a fundamental role in providing indispensable metal raw materials for important industries such as integrated circuit,artificial intelligence and aerospace.Metallurgical national standards are basic strategic resources of great importance,supporting the

4、 high-quality development of metallurgy.The contents of national standards contain a large number of critical technical indicators.Manually identifying and extracting indicators fail to meet the requirement of digital transformation after the advent of the Big Data Era.The deep learning models are u

5、sed to conduct 3 experiments based on RNN,GRU,and BiLSTM model on metallurgical national standards to fi nd an optimal solution.The results suggested that BiLSTM model performed best in the identification of indicators in metallurgical national standards,thus making BiLSTM the solution to the identi

6、fi cation of standard indicator in this fi eld.Keywords:metallurgy,national standard,identifi cation of national standard indicator,deep learning,BiLSTM1 引 言作为现代材料体系的重要组成,金属是国民经济、社会生活和科技发展中必不可少的基础材料和战略物资1。以铅金属和稀有金属为代表的有色金属是大量尖端武器和信息技术产品构件的重要原材料。随着集成电路、人工智能等高新技术产业的快速发展,各国逐渐开始对其金属原材料开展战基金项目:本文受上海市市场监督

7、管理局科技项目“标准指标智能抽取和比对技术在政府监管和 企标领跑者 制度实施中的研究与应用”(项目编号:2021-47)资助。2023年第2期(上)/总第624期88夏磊,方思怡,解凌等:基于BiLSTM模型的冶金领域国家标准指标识别研究略储备。长久以来,标准是产业发展的重要技术支撑,标准数据是重要的基础性战略资源。冶金领域的标准文本蕴含大量的技术性指标,挖掘并比对标准指标将对冶金行业的标准化发展提供一定的依据。在大数据时代,人工抽取标准指标的模式已日益无法满足产业数字化转型的需求。近年来,基于文本挖掘技术的方法在标准指标识别领域开始兴起。标准指标识别在本质上属于文本挖掘领域中的实体命名识别(

8、Named entity recognition,NER)任务,国家标准指标识别为中文实体命名识别(Chinese named entity recognition,CNER)在标准领域的应用。中文文本为序列数据,已有的实证研究表明循环神经网络模型(Recurrent neural network,RNN)及其相关变式在序列数据的NER 问题上有杰出表现,这些变式包括长短期记忆网络(Long-and short-term memory,LSTM)、门控循环单元网络(Gated recurrent unit,GRU)等,其中双向长短时记忆模型(Bidirectional LSTM,BiLSTM)

9、在医疗、金融、科技文献等多种中文文本中均效果良好2-5。为了探寻冶金领域国家标准指标识别的最佳模型,本研究采用基于RNN及其重要变种的深度学习模型,通过运行RNN、GRU和BiLSTM这3组模型的训练实验,比较不同深度学习模型的性能优劣,最终确定了适用于冶金领域国家标准指标识别的深度学习模型,提出了解决冶金领域国家标准指标识别的智能化方案,为冶金领域国家标准的数字化转型和标准化战略制定提供一定的参考依据。2 方 法2.1 实验环境2.1.1 硬件环境参数本研究的实验硬件环境为Intel(R)Xeon(R)Gold 6226R CPU 2.90GHz和2.89 GHz处理器,机带RAM为128

10、GB,操作系统为Windows 10的64 Bit,采用的GPU型号为RTX 3090-24G。2.1.2 软件环境参数本研究的实验平台为Anaconda 3,Python版本为3.8.8,采用的深度学习框架为Keras 2.7.0。该深度学习框架运行于TensorFlow 2.7.0上,以基于Python的TensorFlow为后端。2.2 数据处理本研究的数据处理流程包含数据采集与识别、数据序列标注、数据预处理和数据结构化加工4个步骤。数据处理流程的框架图如图1所示。图1 数据处理流程的框架设计2.2.1 数据采集与识别所有标准文本数据均来自于上海市质量和标准化研究院标准文献馆有版权保护的

11、馆藏纸质资源,经人机协作的OCR处理后将纸质文本统一转化为doc格式的电子文本65篇,约56万余字符,形成冶金领域国家标准文本数据集。2.2.2 数据序列标注本研究邀请具有标准化经验的冶金行业专家对冶金领域国家标准中的产品类标准开展标准指标的数据标注,在结合冶金领域国家标准指标实体特性的基础上经专家协商制定标注方案,从而完成标准文本数据的序列标注工作。本研究的标准指标标注方案包括标准指标标注符号集和标准指标标注规则。标注符号集是指对文本数据进行标注时采用的符号或者字符集合。不同的标注任务往往对应不同的标注符号集。本研究从标准指标的内容和类型分布入手制定标准指标的2023年第2期(上)/总第62

12、4期89夏磊,方思怡,解凌等:基于BiLSTM模型的冶金领域国家标准指标识别研究标注符号集,如表1所示。表1 标准指标实体的标注符号集标注符号维度定义及示例Indicator标准指标名指标的名称定义,例如“待机功率”和“可溶性元素含量”Unit标准指标的单位指标的度量单位,例如上例中的“W”和“mg/kg”Reference标准指标值的引用表示某个指标值不是直接定义,而是引用其他指标的要求,例如“按照某某标准的要求”Category标准指标的级别指标值成立的等级,例如“一等品”“合格品”等Sign标准指标的判定项指标的判定项,例如“大于等于”“”“”“不超过”等Value标准指标值指标值Att

13、ribute标准指标的细分类可理解为指标的细分类或修饰,例如“可溶性重金属”是指标,“砷”是指标“可溶性重金属”的分类标注规则是指在进行数据标注时所遵循的一系列一般原则或具体要求。它决定了标注数据集的构成形式,进而决定了机器学习和深度学习模型的数据输入。已有的研究指出,不同的标注规则或导致不同的模型性能6。因此,择取适用的标准指标的标注规则对构建有效的标准指标标注模型而言具有重要的意义。目前命名实体识别领域的常见标注规则包括BIO模式、BIOES模式以及其它自定义标注模式。与BIO模式相比,BIOES模型对于命名实体的边界信息分辨得更为清晰。本研究采用基于BIOES模式的标注规则,具体说明如表

14、2所示。表2 标准指标的 BIOES标签及含义标注符号定义及示例标签类别标签含义B-标注符号非单一字符的指标头字符I-标注符号非单一字符的指标中间字符O非指标字符E-标注符号非单一字符的指标尾字符S-标注符号单一字符的指标字符2.2.3 数据预处理在数据预处理阶段,主要是结合通用停用词库和冶金领域国家标准文本的文本编写情况构建适用于冶金领域国家标准的停用词库,在去除停用词和无意义符号后约45万余字符。2.2.4 数据结构化加工本研究以字符为数据颗粒度单位对冶金领域的国家标准文本进行文本切分,对数据进行结构化的加工,构建冶金领域的国家标准文本结构化数据集。2.3 模型设计本研究的标准指标识别模型

15、框架包括输入层、中间层、输出层等若干部分。模型总体架构设计如图2所示。图2 标准指标识别模型的总体架构设计示意图本研究的标准指标识别模型采用Word2vec对输入层的文本数据进行索引化处理。Word2vec是一种较为成熟的预训练嵌入(Embedding)模型,在各个领域得到广泛应用。与稀疏、高维、硬编码型的独热向量(One-hot encoding)相比,在较大语料库上预训练习得的嵌入模型更为低维、密集,且能表征向量间的有效联系7,将此类预训练模型加载到数据量较大的任务中能起到数据降维的作用8。Word2vec有2种预训练嵌入的方法:根据目标值预测上下文的Skip-gram方法和根据上下文预测

16、目标2023年第2期(上)/总第624期90夏磊,方思怡,解凌等:基于BiLSTM模型的冶金领域国家标准指标识别研究值的连续词袋(Continuous bag-of-words,CBOW)。已有的实证研究发现,前者适用于小型语料库和罕见语料数据,后者在大量的常用语料数据上精确性更高,训练速度也更快9。考虑到模型的运行效率和样本数量,本研究以字符为单位,采用基于CBOW方法的Word2vec模型原理将冶金领域的国家标准结构化数据转化为静态字符向量。该方法的示意图如图3所示。图3 基于CBOW方法的Word2vec预训练模型循环神经网络是序列加工问题中最为基本的深度学习模型,在语音识别、文本挖掘、股票预测等方面有了广泛的应用。截止目前已衍生出长短期记忆网络、门控循环单元网络、双向循环神经网络(Bidirectional RNN,BiRNN)、双向长短期记忆网络等多个重要变种10,其中BiLSTM因效果较好受到大量认可。由于标准指标识别本质也是标准文本挖掘领域中的命名实体识别任务,故本研究以循环神经网络及其改进算法为核心构建适用于冶金领域国家标准指标识别的深度学习模型。为了比较不同模型性能的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2