基于Stacking集成学习的有源台区线损率评估方法.pdf

资源描述

1、第6 0 卷第6 期2023年6 月15日电测与仪表Electrical Measurement&InstrumentationVol.60 No.6Jun.15,2023基于Stacking集成学习的有源台区线损率评估方法董美娜，刘丽平”,王泽忠，王守强，张子岩，邹运（1.华北电力大学电气与电子工程学院，北京10 2 2 0 6；2.中国电力科学研究院，北京10 0 192）摘要：人工智能及机器学习的发展,为有源台区线损率的评估提供了薪新的思路。提出一种基于Stacking集成学习的有源台区线损率评估方法。从特定系统中提取有源台区数据,采用互信息等方法处理数据中异常值,并建立电气特征指标体

2、系。考虑传统的机器学习与不同思想的集成学习算法之间的差异，综合线性模型与非线性模型，选择线性回归算法、随机森林算法、GBDT算法作为基学习器，构建多算法融合的Stacking集成学习模型。以某省有源台区数据为例,验证了所提方法的准确性和有效性。关键词：有源台区；线损率；互信息；集成学习；多算法融合D0I:10.19753/j.issn1001-1390.2023.06.019中图分类号：TM764A line loss rate evaluation method based on stacking ensemble learningDong Meina,Liu Liping,Wang Zez

3、hong,Wang Shouqiang,Zhang Ziyan,Zou Yun?(1.School of Electrical and Electronic Engineering,North China Electric Power University,Beijing 102206,China.2.China Electric Power Research Institute,Beijing 100192,China)Abstract:The development of artificial intelligence and machine learning provided a new

4、 idea for the evaluation of lineloss rate of transformer district with DG.A line loss rate evaluation method based on Stacking ensemble learning for trans-former district with DG was proposed in this paper.Data of transformer districts with DG was extracted from specific sys-tems and the outliers in

5、 the data were processed by means of mutual information to establish the electrical characteristic in-dicator system,considering the difference between traditional machine learning and dfferent ideas of ensemble learning al-gorithms,integrated linear model and nonlinear model,linear regression,rando

6、m forest and GBDT were involved in base-learner layer,and the model based on multi-algorithm combination of Stacking ensemble learning was built,accuracy andeffectiveness of the proposed method was confirmed based on the data of transformer districts with DG.Keywords:transformer district with DG,lin

7、e loss rate,mutual information,ensemble learning,multi-algorithm combination0引言线损是反映电力企业的经营和管理水平重要技术经济指标，其大小与电力企业的经济效益息息相关。低压台区线损指的是电压在0.4kV及以下情况下所产生的线损，这部分占到了整个配电网线损的一半以上，在电力系统的电能损耗中占的比例较大。随着新能源的发展,越来越多的分布式电源（Distributed Gen-eration,DG)接入电网。因此,提出一种适用于有源台区线损率的评估方法为新能源的接入及电网的优化提基金项目：国家电网有限公司科技项目（56 0

8、 0-2 0 191916 8 A-0-0-00）一134一文献标识码：Afor transformer district with DG文章编号：10 0 1-1390(2 0 2 3)0 6-0 134-0 6供了理论依据，具有十分重要的研究价值。传统有源台区线损率计算方法主要包括平均电流法、潮流法等 2，这些方法依赖于电网参数和运行数据,计算时所需数据多,计算量大且精度通常较低。近年来，人工智能技术的快速发展为当前人类社会带来了巨大变革。其中,文献 3应用线性回归算法对台区线损率进行预测。文献 4提出了聚类技术在线损率计算中的应用。文献 5研究了基于量子遗传算法优化的核心向量机在配电网线

9、损计算中的应用。此外，基于神经网络的线损评估方法有很多，神经网络往往和其他智能算法结合对线损进行估计，如粒子群算法、第6 0 卷第6 期2023年6 月15日遗传算法、灰色关联分析 6 等。文献 7 提出了深度学习在台区线损率分析中的应用。这些方法突破了传统方法的局限性，使得线损率评估得到进一步发展。但是,文献 3-7 只是采用了一种单独方式进行分析,由于不同台区样本之间存在差异，可能会由于随机性而导致泛化性能不佳。因此,文献 8-9提出了集成学习的思想，寻求使用组合多个模型的方式，进一步提高预测精度。但是,组合的方式多为同一类型算法不同参数模型求取均值作为估计结果，本质上还是一种算法，不能通

10、过取长补短的方式训练出更优异模型。文中在分析了线损率评估与人工智能技术的发展基础上，进一步研究集成学习技术在线损率估计中的应用,选取异质的机器学习算法进行有效结合，提出一种基于Stacking集成学习模型评估有源台区线损率的方法。首先介绍了Stacking集成学习算法以及三个基学习器的原理,包括随机森林、GBDT和线性回归。其次,采用互信息等方法处理异常数据，构建特征指标体系。然后,根据算法本质差异和评估结果的均方误差选择最佳的基学习器,构建多算法融合的Stacking集成学习模型。最后，采用有源台区样本数据验证了算法的准确性和有效性。1SStacking集成学习算法1.1基于Stacking

11、的集成学习方式Stacking集成学习框架首先将原始数据集划分成若干子数据集,输人到第一层的各基学习器中,每个基学习器输出各自的预测结果。然后,将第一层的输出作为第二层元学习器的输人值,实现对前一层输出特征归纳,对元学习器进行训练，再由元学习器输出最终预测结果。Stacking集成学习通过对多个模型的输出结果进行泛化，获得整体评估效果的提升 10。如图1所示。训练集1基学习器1预测结果2、样本集一训练集2基学习器2预测结果m训练集m基学习器m第一层预测模型图 1 Stacking 原理框图Fig.1 Principle framework of Stacking样本数据为S=（X,Y),输人变

12、量X=xi,x2,x,输出变量为Y=yi,y2，,y n,将其随机划分为5个大小相等的子集S,、S2、S、S4、Ss，选取前4份作为训练集，最后一份为测试集，采用4折交叉验证思想，令每电测与仪表Electrical Measurement&Instrumentation一个基学习器对样本进行训练,训练完成后,对测试样本进行测试，每一个模型工作的具体原理如图2 所示。模型1模型1 模型1模型1训练S;训练S训练S预测S预测结果a新训练集山训练S2训练S2预测S2训练S2预测结果2训练S3预测S3训练S训练S十子预测结果a3预测S4训练S训练S训练S4预测结果a4预测预测预测预测平均预测新测试bi

13、b2m个基学习器生成的新训练集(Al,A2,Am)m个基学习器生成的新测试集(B1,B2,Bm)图2Stacking框架下每一层模型工作原理Fig.2Working principle of each layer modelunder Stackingframework(1)假设第一层共有m个基学习器,b=1,2,m,重复步骤(2)步骤(4);(2)用第6 个基学习器进行训练，每次选出训练集中的3份进行训练,剩余1份进行测试，预测后输出特征列；,输出后,用参数定型的此学习器去训练测试集数据,输出预测结果bi；(3)由于4 折交叉验证,步骤(2)需要循环4 次,由训练集生成a1,2,a3,a4测

14、试集生成bi,b2,b3,b4;（4)将a1,a2,a3,a4纵向合并成一列的新训练集A,将bi,b2,b3,b4相加求平均值生成新的测试集B；(5)将A，A 2，,A m 作为训练集配合实际值Y输入Stacking第二层元学习器中进行训练训练完毕后，预测结果1用此学习器对Bi,B2，,Bm 做测试,此次预测结果即T元学习器11第二层预测模型Vol.60 No.6Jun.15,2023新特征模型2b3b4（a）第一层预测模型第二层元学习器第二层元学习器（b）第二层预测模型为最终评估结果。考虑不同算法之间的差异,使得不同算法能够取长补短,综合传统的机器学习与集成学习,选择随机森林算法、GBDT算

15、法、线性回归算法作为Stacking的集成学习的基学习器。1.2基学习器算法原理随机森林（RandomForest，RF）是Bagging算法簇的典型代表,其实质是对决策树算法的一种改进,将多个决策树合并在一起,采用自助重采样技术采集样本，其输出是所有回归树预测结果的均值，随机森林在训练时树与树之间是相互独立的,属于并行化处理,能一135 一结巢集B1最终训练集预测结果最终预测集预测结果第6 0 卷第6 期2023年6 月15日够处理高维数据集，解决了决策树泛化能力弱的特点。梯度提升树（Gradient Boosting Decision Tree，G B-DT)是Boosting算法簇的典型

16、代表,该算法由多棵决策树组成,与随机森林不同的是,该方法树与树之间并非相互独立，属于串行方法，在构建子树时，使用之前子树构建结果后形成的残差作为输人数据构建下一棵子树；最终预测时是按照子树构建的顺序进行预测,并将预测结果相加,通过损失函数的负梯度,最优化决策树参数,解决了一般损失函数的优化问题 12。线性回归算法是应用多元线性公式解决回归问题，线性回归算法结构简单,原理易懂，同时又包含了机器学习算法的典型运作特征,是机器学习算法的典型代表。2基于互信息技术的有源台区原始数据处理及特征指标体系构建2.1基于互信息技术的数据预处理方法从特定系统中提取有源台区数据,共有17 种原始数据与有源台区线损率相关，为了保留台区信息的完整性,将这17 种原始数据均定义为特征指标。将上述特征指标分为四大类：台区总体特征、台区网架结构特征、台区运行特征和台区分布式电源特征。台区总体特征主要包括台区总户数、空载损耗、变压器容量、台区类型；台区网架结构特征包括供电半径和线路总长度；台区运行特征主要包括三相不平衡度、功率因数、功率方差、售电量、供电量、负载率、最大负荷；台区分布式电源特征主要包括分布式电源上网电

展开阅读全文