1、基于 GA-SVM的燃气轮机 NOx排放预测研究向彬彬(重庆交通大学机械与车辆工程学院,重庆400041)摘要:为解决燃气轮机发电站存在 NOx超标排放问题,根据燃气轮机运行过程的环境变量和工艺过程参数,提出一种基于 GA-SVM 模型的 NOx排放预测方法。以 UCI 中的燃气轮机运行数据集进行试验。本文提出 RMSE 和MAE 评估模型。结果表明:该模型输出均方根误差 RMSE 为 8.79 mg/m3,平均绝对误差(MAE)为 6.23 mg/m3,并通过与 KNN 模型和 RF 模型进行比较,验证了所提方法能够对燃气轮机 NOx排放浓度进行准确的预测。关键词:燃气轮机遗传算法支持向量机
2、NOx排放中图分类号:TK474.8;TP18文献标识码:A文章编号:1003-773X(2023)02-0047-03引言在电力工业中,燃烧过程是向大气中释放有害污染物 NOx。随着燃气轮机的快速发展及其总设备容量的持续改进,燃气轮机 NOx排放抑制技术越来越引人关注1。各国环保意识不断提高,196 个国家通过了巴黎气候变化公约。该公约旨在减少全球温室气体排放,签署国已经通过了严格的环境法律,包括对碳排放征税。公约核心“空气污染物”一词包括所有可能危害生物的物质。发电厂和车辆使用的化石燃料的燃烧 过 程 构 成 了 空 气 污 染 的 主 要 部 分。NOx(NOx=NO2+NO)被认为是大
3、气的主要污染物,因为它们造成了环境问题,如光化学烟雾、酸雨等2。所以,世界各地严格的环境规则将这些发电厂排放限制在一定的限度内,人们也特别关注减少发电厂排放的相关技术。在确保各单元的安全运行的前提下,为了使NOx的排出最小限度,在季节变化时需要对燃气轮机的运行进行调整3。近年来,各个领域都在与人工智能相结合,为一些多参数、非线性、强耦合相关问题提供了便捷方法。专家们找到了燃气轮机实时运行数据和 NOx排放之间的关系4。张宝凯5使用结合多种特征选择的深度置信网络方法,以燃气轮机多种运行参数为输入变量,NOx的浓度进行了准确的预测。赵刚等6使用大量燃气轮机的过往运行数据建立神经网络 NOx预测模型
4、,并对影响燃烧性能的相关因素进行敏感性分析,以此来优化排放。为提高燃气轮机 NOx排放的预测精度,本文提出基于 GA-SVM模型的 NOx排放预测方法,使用加利福尼亚大学欧文开放数据库(UCI)燃气轮机电厂的运行数据训练该模型。1支持向量机与遗传算法1.1支持向量机支持向量机(SVM)算法7是一种有监督的学习模型,不要求有严格的数据分布,广泛应用于各类数据的预测。线性与非线性都可用,在线性可分 SVM中要求所有样本数据必须线性可分,但是实际生活中,样本数据总是存在着噪音数据,也就是说样本数据中大部分数据是线性可分的,存在少量数据不可分的情况。因此,线性可分 SVM允许存在一定的误差,一般引入软
5、间隔来解决此问题。它可以将非线性函数问题映射为高维空间的线性问题,是分离超平面的符号函数。超平面表达式 f(x)为:f(x)=T(xi)+b.(1)式中:为权重;(xi)为映射函数;b 为偏置顶。将其转化为二次规划问题的公式为:min122+cli=1(i+*i).(2)式中:c 为惩罚因子;i、i*为松弛变量。利用拉格朗日优化方法将其转化为对偶形式,最终得到回归函数f(x,)为:f(x,)=ni-1(*i-i)K(xi,xj)+b.(3)式中:i、*i为各样本对应的拉格朗日乘子向量;K(xi,xj)为核函数。通过预先的简单试验,本文选用 linear 基核函数。为选择更好的 SVM 模型超参
6、数对模型效果进行优化,使用遗传算法(genetic algrthm,GA)对SVM 进行优化。1.2遗传算法遗传算法(GA)就是将需要解决的问题转换成类似生物进化问题,最终达到最优解的过程。无论所需解决问题是线性还是非线性,离散还是连续都可用用。有适用性好、寻优效率较高、搜索速度快、应用范围广等优点8。算法首先就是进行编码得到“染色体”,根据不同的研究目标,选择合适的编码形式,然后进行选择、交叉、变异等操作找出问题的最优解。收稿日期:2022-05-16作者简介:向彬彬(1997),女,硕士研究生,毕业于重庆交通大学机械与车辆工程学院,主要研究方向为数据挖掘与人工智能。总第 238 期2023
7、 年第 2 期机械管理开发MechanicalManagementandDevelopmentTotal 238No.2,2023DOI:10.16525/14-1134/th.2023.02.018试验研究机械管理开发第 38 卷2基于 GA-SVM 的燃气轮机 NOx排放预测模型2.1试验数据本文采用 UCI 中的燃气轮机运行数据集进行试验。数据集由 10 个变量(9 个输入变量和 1 个目标变量)的每小时平均传感器测量值组成。5 年期间共收集了 36 733 起案件。9 个输入变量(自变量)可分为环境变量(如温度、湿度、压力)和工艺参数(如涡轮发电量、空气过滤器压差)两大类。实例中未给出
8、日期,但数据按时间顺序排序。为了确保训练和测试数据的清晰分离,并允许在未来的研究中进行可比性,本文将前 3 年的数据作为预测模型的训练集,后面 2 年的数据作为测试模型的测试集。本研究中所使用的变量的名称、缩写汇总如表 1 所示。2.2数据归一化由于试验数据中,各变量的量纲不都相同,无法进行比较。一般在输入模型前需要对各变量进行数据归一化处理。其表达式如下:X=X-XminXmax-Xmin.(4)式中:X 为连续型特征;Xmin、Xmax分别作为特征的最小值和最大值。本文将在输入预测模型前对输入变量均做数据归一化处理,映射到0,1范围。2.3特征选择皮尔逊相关系数(Pearson Corre
9、lation)是一种度量各特征间相关性的相关系数9。输出的范围为-1+1,绝对值越大,说明两个变量相关性越强。一般用表 2判断相关程度。其计算方法如下:cor(x,y)=1Nni=1(xi-mx)(yi-my)/(xy).(5)式中:x、y 为两组随机变量;N 为样本数;mx和 x分别为 x 的均值和标准差;my和 y分别为 y 的均值和标准差。本文选择皮尔逊相关性系数作为相关性分析的评价指标,对 10 个变量进行相关性系数分析,并用热力图显示结果(见图 1)。图 1 中利用颜色表达相关性,颜色的深浅对应相关性的强弱。若特征间的相关系数过大,将会造成模型的不稳定性,导致每一次模型预测波动高,最
10、终使模型鲁棒性差。从个变量皮尔逊相关系数热力图可知,燃气轮机排气压力(GTEP)与涡轮机发电量(TEY)与多个变量均有强相关性,且都与目标变量 NOx相关性极弱,所以将变量 GTEP 和 TEY 作删除处理。从 NOx与各输入变量的相关系数表 2 可得,NOx排放质量浓度与环境温度 AT 的相关性最强为-0.59,说明在更高的温度下工作更适合减少 NOx的排放,可将环境温度 AT作为重要调整因素。2.4预测模型建立本文在训练 SVM模型时,通过调整惩罚因子 c进行优化模型。c 为惩罚参数,c 越大,对误差的容忍性更小;c 越小,对误差的容忍性更高。传统 SVM对 c关键参数调优一般采用手动调整
11、,通常过度依赖主观经验,不仅效率低小,若问题过于复杂则难以实现优化效果。GASVM模型的步骤如下:1)数据归一化:输入预测模型前对输入变量均作数据归一化处理。2)设置 GA 与 SVM参数:设置 SVM需要优化参数的范围和遗传算法的相关参数。变量(缩写)单位环境温度(AT)环境压力(AP)Pa环境湿度(AH)%空气过滤器压差(AFDP)Pa燃气轮机排气压力(GTEP)Pa涡轮机入口温度(TIT)涡轮机后温度(TAT)涡轮机发电量(TEY)kW h压缩机排气压力(CDP)Pa氮氧化物(NOx)mg/m3表 1各变量的名称、缩写相关系数范围强弱程度0.81.0极度相关0.60.8强相关0.40.6
12、中等程度相关0.20.4弱相关0.00.2极弱相关或无相关表 2相关程度强弱对应图 1皮尔逊相关系数热力NOxNOx1-0.35-0.560.11-0.0470.0990.34-0.19-0.09-0.59-0.3510.0190.0580.120.079-0.230.180.170.19-0.560.0191-0.24-0.2-0.250.01-0.11-0.180.160.110.058-0.2410.680.62-0.480.640.67-0.18-0.0470.12-0.20.6810.88-0.760.980.99-0.140.34-0.230.01-0.48-0.76-0.381-
13、0.72-0.75-0.0520.0990.079-0.250.620.881-0.380.90.9-0.2-0.090.17-0.180.670.990.9-0.750.991-0.11-0.190.18-0.110.640.980.9-0.7210.99-0.055-0.590.190.16-0.18-0.14-0.2-0.052-0.055-0.1111.00.80.60.40.20.0-0.2-0.4-0.6CDPTEYTATTITGTEPAFDPAHAPATATAPAHAFDPGTEPTITTATTEYCDP482023 年第 2 期图 2GA-SVM模型预测值与实际值对比模型MAE
14、/(mg m-3)RMSE/(mg m-3)GA-SVM6.238.79KNN11.9013.84RF10.9112.38表 3各模型评价指标对比1201008060406 0004 0002 0008 00010 00012 00014 0000样本NOx排放浓度/(mg m-3)预测值实际值3)编码设计与种群初始化:本文采用实数和整数混合编码法对支持向量机的 c 进行编码,并设置初始种群个数为 5 个。4)计算适应度:计算所有个体,从中选择最优个体。5)停止算法条件:对种群进行选择、交叉、变异,直至搜寻到最优参数 c 满足 GA终止条件。6)使用最优参数建立 SVM预测模型。2.5模型评价
15、指标本文使用回归评价指标均方根误差(RMSE)和平均绝对误差(MAE)来对模型的预测效果进行评估。评价指标的值越小越好。定义如下:MAE(y,y?)=1nni=1|yi-y?i|.(6)RMSE(y,y?)=1nni=1|yi-y?i|2.(7)式中:yi为样本数据的真实值;y?i为对应样本的预测值。3试验结果为了避免过拟合,划分了测试集,在训练集上训练的模型的超参数在验证集上进行优化。对训练数据进行数据归一化以及特征选择后,把训练样本输入GA-SVM模型中,进行遗传算法的参数寻优。寻优过程如图 2 所示,由图 2 可知,随着遗传算法的进行,最佳适应度曲线呈现出先下降再平稳的趋势,说明遗传算法
16、对 c 的参数寻优过程表现良好。最后的优化结果为惩罚因子 c 为 1.66。将最优参数 c=1.66 代入 SVM模型中进行训练。然后用训练好的模型对测试集进行预测,由测试结果可知,模型对测试样本拟合效果较好,其 MAE 为 6.23mg/m3、RMSE 为 8.79 mg/m3。为 验 证 GA-SVM 模 型 的 合 理 性,本 文 将GA-SVM得到的预测结果与 K-近邻算法(K-NearestNeighbor,KNN)模型和随机森林(Random Forest,RF)模型进行对比分析,评价指标如表 3 所示。从表 3 中可知,KNN 模型评价指标 RMSE 和MAE 分别为 13.84 mg/m3、11.90 mg/m3,RF 模型评价指标 RMSE 和 MAE 分别为 12.38 mg/m3、10.91 mg/m3。通过对比各评价指标,GA-SVM模型的预测结果效果明显优于传统 KNN 模型和 RF 模型,证明 GA-SVM模型具有合理性。4结论1)为预测燃气轮机 NOx的排放,本文以加利福尼亚大学欧文开放数据库(UCI)燃气轮机电厂的运行数据为例建立 GA-SVM模型,并分