1、第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023面向城市固废焚烧过程的缺失数据填充及应用汤摇 健1,2,徐摇 雯1,2,夏摇 恒1,2,乔俊飞1,2(1.北京工业大学信息学部,北京摇 100124;2.智慧环保北京实验室,北京摇 100124)摘摇 要:针对城市固废焚烧(municipal solid waste incineration,MSWI)过程中存在的随机和连续数据缺失问题,提出了一种基于专家经验和约简特征集成模型的填充方法.首先,将过程数据缺失情况识
2、别为随机分布、时间维度和特征维度缺失 3 种类型.接着,基于专家经验对前 2 种类型进行缺失填充后,面向第 3 种类型基于分布相似性和互信息相关性为缺失特征预测模型选择建模数据集和约简特征,建立具有互补特性的随机森林、梯度提升决策树和反向传播神经网络子模型对缺失值进行初步预测,利用贝叶斯线性回归构建集成模型以获得最终填充值.最后,利用填充后的 MSWI 数据建立基于跨层全连接深度森林回归的二噁英排放浓度软测量模型.实验结果表明所提方法提高了 MSWI 过程数据的质量.关键词:城市固废焚烧(municipal solid waste incineration,MSWI);数据填充;专家经验;约简
3、特征;集成模型;贝叶斯线性回归(Bayesian linear regression,BLR)文献标志码:A文章编号:0254-0037(2023)04-0442-14中图分类号:TP273doi:10.11936/bjutxb2022100005收稿日期:2022鄄10鄄18基金项目:北京市自然科学基金资助项目(4212032);国家自然科学基金资助项目(62073006)作者简介:汤摇 健(1974),男,教授,博士生导师,主要从事小样本数据建模、固废处理过程智能控制方面的研究,E鄄mail:freeflytang Missing Data Filling Method for Munic
4、ipal Solid Waste IncinerationProcesses With Its ApplicationTANG Jian1,2,XU Wen1,2,XIA Heng1,2,QIAO Junfei1,2(1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.Beijing Laboratory of Smart Environmental Protection,Beijing 100124,China)Abstract:In view of the p
5、roblem of random and continuous data missing in municipal solid wasteincineration(MSWI)process,a missing data filling method based on expert experience and reducedfeature ensemble model is proposed.First,according to the lack conditions of process data,the missingdata are divided into three types,i.
6、e.,missing with random distribution,time dimension and featuredimension.Next,the former two ones are filled based on expert experience,and the distributionsimilarity and mutual information(MI)correlation are used to select the modeling data and reduce theinput feature for the third type one.Sub鄄mode
7、ls with complementary characteristics based on randomforest(RF),gradient boosting decision tree(GBDT)and back propagation neural network(BPNN)areused to predict the preliminary the missing values.Further,fusion model based on Bayesian linearregression(BLR)is used to obtain the final data filling val
8、ues.Finally,a soft鄄sensor model of dioxin(DXN)emission concentration based on deep forest regression with cross鄄layer full connection(DFR鄄clfc)was established to verify the filling effect.The results show that the proposed method improves thedata quality of MSWI process.网络首发时间:2023-03-22 15:48:52网络首
9、发地址:https:/ 第 4 期汤摇 健,等:面向城市固废焚烧过程的缺失数据填充及应用Key words:municipal solid waste incineration(MSWI);data filling;expert experience;reducedfeature;ensemble model;Bayesian linear regression(BLR)摇 摇 相对于传统的填埋、生物处理等方法,城市固废焚烧(municipal solid waste incineration,MSWI)技术具有无害化、减量化和资源化等优势1鄄2.但是,该过程会排放被称为世纪之毒的痕量有机污染
10、物 二噁英(dioxin,DXN),采用软测量技术对其进行在线检测是当前业界的难点和热门问题3鄄4.DXN 的检测具有长周期、高成本等特性,与其对应的过程数据常以小时的时间尺度进行存储,受传感器故障、不确定扰动或人为因素的影响,这些历史数据往往存在不同程度的缺失.以北京某焚烧厂 20092020年间的记录数据为例,其含有 2%3%的缺失,这不利于挖掘运行数据蕴含规律和建立 DXN 排放软测量模型.显然,完备的建模数据是构建有效软测量模型乃至实现 MSWI 过程运行优化的基础5.因此,对缺失数据进行填充至关重要.目前,针对缺失数据的处理方法主要分为简单删除法、权重法及填充法6鄄8.简单删除法直接
11、删除缺失数据所在的行,适用于缺失数据占整体数据比例较小的情况;当存在大量缺失数据时,该方法会导致关键信息丢失,影响数据集的质量.权重法通过logistic 或 probit 回归等方法将缺失属性权重分配至完整属性以增大其权重,进而减小缺失数据导致的偏差,但当数据集中存在多个缺失属性时会增加计算难度和降低预测准确性.填充法是利用统计学和机器学习算法预测缺失值,其中:统计学是基于对数据集的假设进行填充,包括最大期望(expectation鄄maximization,EM)法、多重填充法和回归分析法等;机器学习算法是对缺失数据集进行分类后通过学习数据集的样本分布规律构建模型预测缺失值,包括K 最近邻
12、填充、K鄄means 填充和贝叶斯网络等.本文主要关注填充法.针对数据填充问题,Kabir 等9针对水网络数据库中的缺失特征,采用数据平均值进行填充,但仅适合数据规模小和缺失数据较少的情况;邓子畏等10针对混凝土泵车远程监控数据异常现象,提出基于随机过程的 EM 填充算法,并利用随机过程近似法补偿填充效果,可有效提高模型性能,但忽略了数据的局部相似性,并且收敛速度随数据缺失比例的增大而变慢;赵霞等11提出基于改进K鄄means 的缺失数据填充,基本思想是在完整数据中寻找与缺失数据最相似的进行填充,具有计算量小和处理速度快等优点,局限性在于如何定义适用于数据集的相似性标准.面向城市污水处理过程的
13、缺失数据,鲁树武等12提出基于径向基函数神经网络的数据填充,韩红桂等13建立基于改进型支持向量机的填充模型,上述研究的本质是对缺失数据进行非线性拟合;进一步,针对混合类型数据,韩红桂等14利用改进的随机森林(randomforest,RF)对剔除异常数据后的缺失数据进行填充;上述填充算法均采用单模型,在缺失属性较多时存在不确定性和难以适用的缺点.针对上述问题,Quartagno 等15提出能够选择模型的多级填充策略;Gondara 等16提出基于超完全深度去噪自动编码器的多重填充模型,能够处理不同类型、模式、比例和分布下的缺失;上述方法的本质是先为缺失值推断多个预测值,再综合分析基于这些预测值
14、的完整数据集后依据某一准则确定最终填充结果,即其最终选择单模型的估计值进行填充.研究表明,多模型集成的建模方法可提高模型的泛化性、有效性及可信度,是弥补单模型存在偏差的有效方法17鄄18.集成建模分为子模型构建和子模型集成 2 步,其中:前者要求所构建的子模型间具有差异性,后者要求能对不同预测值进行加权集成以获得最终预测值.贝叶斯线性回归(Bayesian linearregression,BLR)能够依据数据的后验分布构建模型,较好的推理能力使其在多个领域中均获得成功应用19.目前,将 BLR 用于数据填充子模型集成的研究还未见报道.此外,针对 MSWI 过程而言,不同时期的不同过程变量具有
15、不同的分布特性.通常,依据过程变量的物理含义和其随时间的分布变化,领域专家能够准确推理得到非连续缺失值.综上所述,本文提出了基于专家经验和约简特征集成模型的填充方法.首先,将过程数据识别为随机分布、时间维度和特征维度缺失 3 种类型.接着,基于专家经验规则对前 2 种类型进行填充,基于分布相似度和互信息(mutual information,MI)为第 3种类型的填充模型选择建模数据和输入特征后构建具有互补特性的 RF、梯度提升决策树(gradientboosting decision tree,GBDT)和反向传播神经网络(back propagation neural network,BP
16、NN)子模型,基于 BLR 集成上述子模型的预测值以获得最终填充值.最后,采用填充后的数据建立基于跨层全连接344北摇 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年深度森林回归(deep forest regression based on cross鄄layer full connection,DFR鄄clfc)20的 DXN 排放软测量模型对填充效果进行验证.实验结果表明所提方法提高了 MSWI 过程数据的质量.1摇 MSWI 过程数据采集典型的 MSWI 工艺流程主要包含储运发酵、固废燃烧、余热交换、烟气处理和烟气排放共 5 部分21,流程如图 1 所示.图 1摇 MSWI 工艺流程图Fig.1摇 Flow chart of MSWI processMSWI 过程数据主要由各阶段的数据采集仪表、传感器等获得,其主要包括温度、流量、物料消耗、压力、速度、汽包水位和常规污染物排放浓度等22鄄23.其中:温度的测点主要分布在炉膛和炉排上方,用以监测燃烧室温度以及干燥段、燃烧段和燃烬段炉排的内外侧温度;流量主要为炉排的左右侧空气流量、一次风和二次风流量、过热器冷却水流量、省煤器和混