1、本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)基于KNN-LSTM神经网络模型的炉温预测骆文辉(长三角信息智能创新研究院,安徽 芜湖 241000)摘要:以产线传感器回传数据为基础,根据时间序列对历史数据趋势高度依赖的特点,考虑时间节点之间的相关性,通过Gaussian_KNN(高斯加权的K最邻近法)对回转窑分解炉温度上下游参数的历史数据进行赋权,再传入含有LSTM(长短期记忆神经网络)的Sequential模型中,学习历史数据中各节点储存的信息以及节点之间的相关
2、性,结果显示相对准确地预测了回转窑的温度,为水泥回转窑控制系统精准控制提供了依据。关键词:回转窑;炉温;KNN-LSTM(K-NearestNeighbor Long ShortTerm Memory);神经网络模型;预测中图分类号:TP183 文献标识码:A文章编号:1009-3044(2023)18-0026-04开放科学(资源服务)标识码(OSID):0 引言水泥行业是典型的流程型工业,主要生产过程可以概括为“三磨一烧”:生料磨、煤磨、水泥磨以及回转窑烧制。水泥回转窑工作状态直接决定水泥的质量,温度的控制效果直接影响熟料游离氧化钙的含量,进而决定了水泥熟料的产品质量。回转窑烧成系统要求形
3、成0.325.0 cm的球形熟料结块,理化反应十分复杂,气、液、固三相并存,是一个多变量、强干扰、大滞后的非线性系统1。因此,如何预测控制回转窑温度并稳定控制炉温对回转窑热工参数调节、稳定窑况以及水泥熟料的正常生产和水泥质量合格率的提高具有重要意义。文章以某水泥公司产线传感器回传数据为基础,依据流程型企业生产对历史数据的依赖性,采用时间序列算法分析输入变量的历史趋势,综合考虑时间节点之间的相关性,通过Gaussian_KNN(高斯加权的K最邻近法)对回转窑分解炉温度上下游参数的历史数据进行赋权后,应用 LSTM(Long Short-Term Memory Network,长短期记忆神经网络)
4、的Sequential模型来进行预测。实验结果表明,与其他模型相比,KNN-LSTM能够更加准确地学习历史数据中各节点储存的信息以及节点之间的相关性,表现出更加准确的预测性能。1 原理和方法1.1 Gaussian_KNN根据k个最近的邻居的状态来决定样本的状态。KNN算法的核心思想是,基于某种距离度量,找出此样本与其最近的个样本,如果K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。但KNN算法存在以下问题2:如果初始数据集样本数目不平衡,极易导致k个邻居投票类别的参与概率不一样。也就是说,k个邻居中,较大样本数的类别其所属的样本占了绝大多数。采用
5、Gaussian函数进行不同距离的样本的权重优化,使得训练样本与测试样本的距离与权重呈相反方向。给更近的邻居分配更大的权重,而较远邻居的权重相应减少,取其加权平均。1.2 LSTMLSTM是一种特殊的递归神经网络,是循环神经网络(RNN)的一种变体3。它通过在适当的位置添加“门”结构来解决信息冗余的问题;在流经神经元时,允许信息被选择性地保留或遗弃,从而增强了原始信息的权重,并削弱了不相关信息的权重,解决了传统递归神经网络中梯度消失、梯度爆炸、无法处理长期依赖等问题4。文章根据时间序列的特点,考虑时间节点之间的相关性,利用高斯优化过的KNN算法,挑选对当前时刻影响较大的前k个时间节点,并赋予相
6、应的权重来计算过往时刻对当下的影响大小。距离越近,Gaussian函数计算后的权重越大,说明对当下时刻的影响越大。收稿日期:2023-03-20基金项目:安徽省科技重大专项:跨模态知识驱动的建材领域协同制造与管理平台(编号:202003a05020058)作者简介:骆文辉(1981),男,甘肃天水人,博士,副研究员,主要研究方向为工业智能、大数据应用。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.19,No.18,June 202326DO
7、I:10.14004/ki.ckt.2023.0906人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)1.3 KNN-LSTM设di,j 表示时间节点 i 与时间节点 j 之间的距离,则:di,j=d()xi,1,xi,2,xi,m,()xj,1,xj,2,xj,m=s=1m()xi,s-xj,s2,i,j=1,2,n(1)其中 m 为时间序列节点的维度,n 为时间序列长度;Wi,j表示时间节点j对时间节点i的影响权重:Wi,j=ae-(di,j-b)22c2(2)
8、其中,a是距离曲线尖峰的高度,b是尖峰中心的坐标,c称为标准方差;设x(j)i为第i个时间节点的第j个近邻点,则:x(j)i=x()ji,1x()ji,2x()ji,m(3)其中,x(j)i,m为第i个时间节点第j个近邻点的第m维变量。对x(j)i赋予权重Wi,j,则:x(j)i Wi,j*x(j)i(4)考虑到时间序列模型依赖于数值在时间上的先后顺序,首先对分解炉温度序列进行平稳性检验。平稳性检验为了确定没有随机趋势或确定趋势,否则将会产生“伪回归”问题。依据ADF单位根检验,结果如图1所示,adfCV(1%)能拒绝原假设,即原序列不存在单位根,原序列为平稳序列。根据此结论,时间序列模型将历
9、史时间节点(即t-k时刻)中分解炉温度对当下时刻(即t时刻)的权重定义为1,即:x()ji=|x()ji,1x()ji,2x()ji,m-1=Wi,j*x()ji,1x()ji,2x()ji,m-1x()ji,m=x()ji,m(5)图1 分解炉温度序列ADF单位根检验结果图通过时间窗口的滑窗操作将时间序列从无监督转为监督学习问题。滑窗操作产生的数据集包含km 列数据,如图2所示(图中k取10),其中k是滑窗的步长,m为时间序列节点的维度。当前时刻(即t时刻)分解炉温度序列为主序列,也就是目标序列;其余km-1列为子序列,转化后的监督学习问题将历史时间序列作为特征序列,剔除子序列中当前时刻(即
10、t时刻)下m-1列序列,剩余子序列为特征序列。将特征序列赋予权重Wi,j,则新的特征序列为:Wk,1x()1k,1Wk+1,2x()2k+1,1 Wk+n-1,1x()nk+n-1,1 Wk,1x()1k,m-1 Wk+1,2x()2k+1,m-1 Wk+n-1,nx()nk+n-1,m-1x()1k,mx()2k+1,m x()nk+n-1,mWk,k-1x()k-1k,m-1Wk+1,kx()kk+1,m-1 Wk+n-1,k+n-2x()k+n-2k+n-1,m-1x()k-1k,mx()kk+1,m x()k+n-2k+n-1,m(6)其中k为滑窗的步长,n为滑窗操作后时间序列的长度;
11、目标序列为:x()mkx()mk+1x()mk+n-1(7)其中k为滑窗的步长,n为滑窗操作后时间序列的长度;为了评价该方法的有效性,采用R-square确定系数,R-square越接近1,模型准确率越高,反之,模型准确率越低。R-square:SSR=i=1nwi()ypre-yi2(8)图2 时间窗口滑窗将时间序列从无监督转为监督学习问题27本栏目责任编辑:唐一东人工智能Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)SST=i=1nwi()yi-yi2(9)R_square=SSRSST=
12、SST-SSESST=1-SSESST(10)2 实验实验数据来自水泥公司某号产线传感器回传数据,如图3所示,包含二次风温,生料喂料速度(t/h),煤粉喂料速度(t/h),喂煤电机转速,喂煤秤负载,喂料阀门开度(%)和分解炉温度,时间为 2022.7.11 0:00 至2022.7.13 2:00,共3 001组数据,其中80%作为训练集,20%作为测试集。图3 产线采集数据2.1 参数选择1)滑动窗口k值的选取综合产线及生产实际,实验数据的采样频率为1分钟,考虑到水泥产线各生产环节的工艺不同,不同位置所采集到的数据,彼此间可能会存在一定的延时性,比如煤粉喂料速度t/h与分解炉温度之间就存在延
13、时性。因此,k值的选择非常关键,不宜过小或过大,应当选择在合适的区间内,将k值假定在1,10区间内,通过对比选取最优值。2)近邻点个数N值的选取近邻点个数N值表示对当前时刻而言,会考虑历史前N个时刻的数值变化会对当前时刻产生的影响。假设通过滑窗操作产生的前k个时刻都会对当前时刻产生影响,因此,近邻点个数N值与滑动窗口k值保持一致。3)网络结构的选取图 4 中的网络预测框架利用了机器学习中的KNN算法以及深度学习中的Sequential模型,来搭建多维赋权KNN-LSTM模型。经过一系列对比实验,设置了最佳的网络超参数,其中包括1个LSTM层、1个Dropout层和个全连接层,LSTM层的节点数
14、为50,Dropout层的舍弃率为0.2。训练使用的损失函数为均方误差(Mean Squared Error,MSE),优化器采用Adam,每次训练的样本大小batch_size为72,训练的轮数epoch为50。2.2 结果与分析1)不同k值(滑动窗口)下,实验结果对比与分析KNN-LSTM模型对当前时刻的分解炉温度进行预测,根据模型的输入,历史时刻的数据信息,即t-k时刻,t-k+1时刻,t-k+2时刻t-1时刻的二次风温,生料喂料速度(t/h),煤粉喂料速度t/h,喂煤电机转速、喂煤秤负载、喂料阀门开度(%)和分解炉温度。不同历史时刻的数据信息分别乘以对应权重Wi,j,最终构成Seque
15、ntial模型的输入。图5为k取1,10范围内,KNN-LSTM模型在测试集上的表现,评价方法为R-square。由表1可知,不同k值(滑动窗口)会带来不同的历史信息,会构成不同的模型输入,对未来的预测结果也不尽相同。k=4时,模型准确率最高。因此,用当前时刻的前4个历史时间节点的相关信息来预测当前时刻下的分解炉温度最为准确。表1 不同K值(滑动窗口)下,实验结果对比与分析不同K值(滑动窗口)下,实验结果对比与分析滑动窗口K值评价标准:R-squareK=10.9224K=20.9442K=30.9552K=40.9643K=50.9512K=60.95K=70.9329K=80.9352K=
16、90.9518K=100.94282)KNN-LSTM(Gaussian_KNN)对 比 ARMA,LSTM以及KNN-LSTM(无Gaussian)表2为分别用ARMA,LSTM,KNN-LSTM(无Gaussian)以及KNN-LSTM(Gaussian_KNN)对当前时刻分解炉温预测的结果(滑动窗口k=4),评价方法同样为R-square。由结果可 知,KNN-LSTM(Gaussian_KNN)可以更加有效图4 网络结构图28人工智能本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)地学习到过去4个时间节点的相关信息对当前时刻分解炉温的影响,并更加准确地预测当前时刻分解炉温度。表2 ARMA、LSTM、KNN-LSTM(无Gaussian)以及KNN-LSTM(Gaussian_KNN)预测性能对比模 型ARMALSTMKNN-LSTM(无Gaussian)KNN-LSTM(Gaussian_KNN)评价标准:R-square84.64%90.44%96.67