1、第 卷 第期 年月动力工程学报 收稿日期:修订日期:作者简介:孙胡彬(),男,浙江慈溪人,硕士研究生,研究方向为电厂数据挖掘。赵虹(通信作者),男,教授,硕士,电话():;:。文章编号:():基于贝叶斯优化随机森林回归的燃煤锅炉预测模型孙胡彬,杨建国,金宏伟,屠海彪,周晓亮,赵虹(浙江大学 能源清洁利用国家重点实验室,杭州 ;浙江浙能台州第二发电有限责任公司,浙江台州 ;杭州集益科技有限公司,杭州 )摘要:根据某超超临界 燃煤机组实际运行数据,采用随机森林()算法建立燃煤锅炉炉膛出口烟气中质量浓度预测模型,并利用贝叶斯优化()进行超参数寻优,将 模型与网格搜索优化的 模型()进行对比。为了更好
2、地评价预测模型,以平均绝对百分比误差 和决定系数作为评价指标,将所建立的 模型与目前常见的基于贝叶斯优化的 神经网络()模型、最小二乘支持向量机()模型进行比较。结果表明:模型比 模型的预测精度更高,且 模型的 为 ,为 ,均优于 模型和 模型的预测结果,证明 模型具有更高的预测精度和更优的泛化性能。关键词:;预测模型;随机森林;贝叶斯优化中图分类号:文献标志码:学科分类号:,(,;,;,):,(),()(),()(),:;燃煤电厂是我国主要的电力来源,根据 最新发布的数据,年我国的燃煤发电量占总发电量的 。而燃煤电厂排放的 是主要的大气污染物,严重危害环境和人体健康。此外,为了满足“超低排放
3、”的要求,需要对进行烟气后处理,而锅炉燃烧过程中较高的 生成量会增加额外的烟气脱硝费用,从而增加发电成本。目前,排放控制方式主要有燃烧过程控制和烟气后处理种,而针对燃煤锅炉炉膛出口烟气中 生成量的预测是其中的重要环节。因此,精确预测燃煤锅炉生成量,对配煤掺烧、燃烧优化以及污染物超低排放控制等具有重要意义。锅炉系统是具有强耦合性的复杂系统,其生成特性受燃料种类、锅炉负荷、燃烧器类型和运行方式等多种因素影响,涉及湍流燃烧、传热传质等多种过程,难以用简单过程反映,建立基于反应动力学原理的生成预测模型难度较大。近年来,随着人工智能的快速发展,大量机器或深度学习算法被应用到电站锅炉建模领域,实现了高度非
4、线性问题的预测,使其中以数据挖掘、机器学习等为核心技术的电站锅炉 浓度预测模型被大量提出。其中,以神经网络模型和支持向量机模型 为代表,这种算法被广泛验证并应用在锅炉预测领域。但是,神经网络存在易陷入局部最小值和过拟合的问题,影响模型的泛化能力,且需要大量样本训练模型;支持向量机是一种基于核函数的算法,泛化能力在很大程度上依赖于核函数的选择,且在处理大规模样本数据集时学习效率不高。换言之,支持向量机的参数选择人工影响较大,不利于预测精度和训练速度的进一步提高。随机森林()由 于 年提出,是一种基学习器为决策树的集成学习算法 ,具有预测精度高、训练速度快、调节参数少和抗过拟合能力强等优点,且适用
5、于各种数据集运算,被誉为“代表集成学习技术水平的方法”。针对神经网络和支持向量机模型存在的问题,笔者基于某 超超临界机组实际运行数据,采用贝叶斯优化()算法进行超参数寻优,建立基于随机森林回归的锅炉 生成预测()模型。并将该模型与网格搜索法优化的随机森林模型()、贝叶斯优化的 神经网络模型()、贝叶斯优化的最小二乘支持向量机模型()进行比较。随机森林与贝叶斯优化 随机森林随机森林在样本选择中基于 自助采样法,对给定包含个原始样本的数据集进行次有放回的采样,最终得到含个样本的采样集,根据概率公式:()()采样集包含初始数据集 的样本。重复进行轮抽取,训练棵基决策树并进行组合形成随机森林。随机森林
6、示意图如图所示,其中为原始样本,为个采样集。图随机森林示意图 随机森林是 算法的一个扩展变体,在决策树的训练过程中引入了随机属性选择。对于随机森林中基决策树的每个结点,先从结点的属性集合(假设个属性)中随机选择一个包含个属性的子集,再从这个子集中选择一个最优属性进行划分。因此,随机森林的基学习器的多样性不仅来自于对初始训练集采样的样本扰动,还来自于属性扰动,使得随机森林最终的泛化性能可通过基学习器之间差异度的增加而进一步提升。此外,由于在对决策树进行划分时仅需要考察一个属性子集,而 则需要考虑所有属性,因此随机森林的训练效率也通常要优于 。第期孙胡彬,等:基于贝叶斯优化随机森林回归的燃煤锅炉
7、预测模型随机森林回归采用的基决策树为分类与回归树(),它基于平方误差最小化准则:,(,)()(,)()()其中,为变量属性;为对应的变量值;作为切分变量与切分点,定义个区域和,、分别为个区域包含的数据实例的输出的均值。(,)()()(,)()(),()()(),()()()在训练数据集所在的输入空间中,递归地将每个区域划分为个子区域并决定每个子区域上的输出值,构建二叉决策树()。最终,随机森林回归的输出结果为棵 回归树输出值的平均值():()()()随机森林算法的步骤如下:()利 用 自 助 采 样 法,生 成 训 练子集;()采取随机属性选择的方法进行结点分裂,构建单棵 回归树;()重复步骤
8、()、步骤(),构建棵 回归树,每棵树自由生长,不进行剪枝,成为随机森林;()将棵 回归树的输出值取均值作为随机森林的输出结果()。贝叶斯优化贝叶斯优化 是一种有效的全局优化算法,本质上属于概率模型,是在概率机器学习和人工智能领域的先进技术之一。它是一种基于模型的序贯优化方法,根据对未知目标函数获取的信息,找到下一个评估位置,从而最快地达到最优解。优化过程中利用贝叶斯定理:()()()()(),(),(),()()()()式中:为已观测集合;为决策向量;为观测值;为观测集合个数(迭代次数);为观测误差;()为的似然分布;()为未知目标函数的先验概率分布;()为的边际似然分布,用于优化超参数;(
9、)为的后验概率分布,后验概率分布表示修正先验分布后未知目标函数的置信度。贝叶斯优化包括概率代理模型和采集函数个核心部分。本文主要介绍的概率代理模型为非参数模型中的高斯过程,采集函数采用置信边界策略。.概率代理模型采用高斯过程(,)作为概率代理模型,高斯过程被广泛应用在回归、分类以及许多需要推断黑箱函数的领域中。高斯过程由一个均值函数()和一个半正定的协方差函数(,)构成:()(),()()()()()(),()()()()()()()通常设置均值函数()。首先假设一个均值的先验分布(,):,(),()(),()()式中:为训练集,;为未知函数的集合,(),(),();为(,)构成的协方差矩阵;
10、为超参数。首先假设噪声存在且满足独立同分布的高斯分布,进一步得到似然分布:(),()()其中,为标准差,表示单位矩阵。由先验分布和似然分布公式,得到边际似然分布:,()(),(),()()通常通过最大化该边际似然分布来优化超参数。根据高斯过程的性质,存在如下联合分布:,()其中,表示预测函数值,表示预测输入,(,),(,),(,),(,)。由联合分布公式得到以下预测分布:,(),()()()()()()式中:为预测均值;()为预测协方差。动力工程学报第 卷通过明确指定先验均值函数(),可在增加模型解释性的同时方便先验信息的表达,此时预测协方差不变,预测均值变为:()()()()为了简便,在实际
11、应用中通常假设先验均值函数恒为,后验均值并不限制为,因此该假设对后验准确性几乎没有影响。.采集函数采集函数的目的主要是寻找下一个评估点,置信边界策略()是一种针对高斯过程的评估策略,表示置信上界,在求解目标函数最大值时,策略的采集函数为:;()()()()式中:为后验均值;为后验标准差;为平衡期望和方差的参数。贝叶斯优化的流程如下:()最大化采集函数,得到下一个评估点。()评估目标函数。()整合数据,更新概率代理模型。()迭代到指定次数,输出最优评估点。随机森林回归的 预测模型 数据预处理与特征变量选择选取某超超临界 燃煤机组的实际运行数据,共 组。首先对数据进行预处理,包括进行缺失值、零值的
12、检验与处理。然后,对数据进行基本观察,发现锅炉负荷变化较大,所取的数据样本可能存在非稳态工况数据,对模型的影响较大,因此需要进行数据的异常值检测与剔除。通过利用数据可视化(折线图、散点图)、法则和箱型图等方式,剔除了 组粗大误差数据与异常数据,最终选择 组数据。结合不同的特征对 生成的影响,选用 个输入参数(见表),输出参数为炉膛出口 质量浓度()。建立预测模型基于随机森林回归的 预测模型流程图如图所示。首先将数据集按 的比例分为训练集和测试集,训练集采用折交叉验证,利用贝叶斯优化算 法 对 预 测 模 型 中 个 超 参 数 进 行 寻 优(见表),以折交叉验证的决定系数均值作为目标函数,设
13、置迭代次数,最终输出最优超参数组合并在训练集上训练 预测模型,利用测试集进行模型效果的评估。表输入参数 参数个数数值范围全水分质量分数()内在水分质量分数()空气干燥基灰分质量分数()空气干燥基挥发分质量分数()空气干燥基硫分质量分数()收到基低位发热量,()总煤量()锅炉负荷 总风量()二次风量()磨煤机入口一次风量()前后墙、侧燃尽风挡板开度 前后墙、侧各三层二次风门开度 炉膛氧量 为了更好地评价预测模型,选择平均绝对百分比误差()和决定系数()作为评价指标。计算公式如下:()()()()式中:为数据个数;为预测值;为实际值;为预测值的平均值。图随机森林预测模型流程图 第期孙胡彬,等:基于
14、贝叶斯优化随机森林回归的燃煤锅炉 预测模型根据经验,选择迭代次数为 次,经过 次迭代寻优后的模型参数结果见表。表最优 模型参数结构 参数符号数值数目棵树 数目深度 特征选择个数 叶子节点最小样本数 内部节点划分最小样本数 结果与分析 模型预测结果最终通过寻优到的最佳超参数,在训练集和测试集上的预测结果如图所示。从图可以看出,经过 模型计算出的预测值与真实值差距较小,拟合效果好,表明预测值能较好反映实际的真实值情况,说明该 模型有着较好的预测能力。()训练集预测结果()测试集预测结果图 模型预测结果 同时,为了验证贝叶斯优化的优势,将 模型与建立采用传统网格搜索法优化的 模型进行比较。表给出了
15、模型和 模型的性能对比。从表可以看出,模型在训练集和测试集上的 和都比 模型表现得更好,表明 模型训练效果更好,同时泛化能力更佳,且网格搜索法是在一个范围内不断进表种 模型性能对比 训练集测试集模型 行超参数排列组合,在维度较多时并不适用,对后期的模型优化存在瓶颈。多模型比较为了验证 模型的可靠性和先进性,将基于同一训练集建立的 模型与 模型、模型进行比较,结果如图 所示。表给出了种模型预测的评价指标情况。()模型()模型()模型图种模型预测结果对比 动力工程学报第 卷表种模型评价指标 模型 从图和表可以看出,模型的 在种模型中最小,在种模型中最大,说明与其他种模型相比,模型具有更高的预测精度
16、和更优越的泛化性能,可以更好地完成高维多变量非线性拟合。结论()针对燃煤锅炉在运行过程中生成的 浓度预测问题,建立了基于随机森林回归的预测模型。并采用贝叶斯优化算法对随机森林 模型进行超参数寻优。结果表明,采用贝叶斯优化的随机森林 模型的预测精度比传统网格搜索法优化模型的预测精度有明显提升。()将所建立的 模型与 模型、模型进行比较,模型的 在种模型中最小,在种模型中最大,证明 模型具有更好的预测精度与泛化性能。参考文献:杜振,钱徐悦,何胜,等燃煤电厂烟气 脱硝成本分 析 与 优 化 中 国 电 力,():,():梁志宏基于我国新大气污染排放标准下的燃煤锅炉高效低协调优化系统研究及工程应用中国电机工程学报,(增刊):,():卓建坤,焦伟红,宋少鹏,等锅炉燃烧优化中预测模型研究进展燃烧科学与技术,():,():谷丽景,李永华,李路电站锅炉燃烧优化混合模型预测中国电机工程学报,():,():牛培峰,史春见,刘楠,等基于自适应量子灰狼算法的锅炉预测模型动力工程学报,():,():,杨国田,张涛,王英男,等基于长短期记忆神经网络的火 电 厂排 放 预 测 模 型 热 力 发 电,():,():