基于LightGBM算法的...岛检测及其集成的可解释研究

资源描述

1、第 43 卷第 7 期2023 年 7 月电力自动化设备Electric Power Automation EquipmentVol.43 No.7Jul.2023基于LightGBM算法的光伏并网系统孤岛检测及其集成的可解释研究朱春霖1，2，余成波1，2（1.重庆理工大学电气与电子工程学院，重庆 400054；2.重庆市输变电设备物联网技术研究所，重庆 400054）摘要：针对智能孤岛检测方法欠缺对数据集划分过程中标签分布不均问题的考虑，以及该领域尚未对复杂智能孤岛检测模型的决策进行可解释性分析，提出了一种基于轻梯度提升机（LightGBM）算法的孤岛检测模型。采用分层抽样的

2、 K折交叉验证检测模型的分类性能，解决数据标签分布不均的问题；提出基于决策树的Shapley值加性解释方法为主干，融合累计局部效应图和局部代理模型的集成可解释分析框架，从全局性和局部性角度对光伏并网系统的孤岛状态检测进行归因分析。算例仿真结果表明，所提模型能在传统检测方法的检测盲区中实现精确且快速的动态孤岛检测，且在电压波动、系统故障等情况下均未发生误判。基于集成的归因分析方法解决了单一可解释方法的欠合理性问题，揭示了模型输入电气特征自变量与孤岛检测响应因变量之间的关系，提高了模型的可信度。关键词：光伏并网系统；孤岛检测；机器学习；LightGBM算法；Shapley值；可解释性中图分类号：T

3、M761；TM615 文献标志码：ADOI：10.16081/j.epae.2022080060 引言为了推动实现我国的“双碳”发展目标，提高清洁能源占比，建设综合能源系统俨然已经成为我国能源结构深刻重塑的重中之重。其中，大规模的新能源并网会大幅增加电力系统的不稳定性。对于光伏并网系统而言，主网侧的计划或非计划断电容易导致光伏发电系统与本地负载的孤岛运行，进而给设备检修、人员安全、系统并网设备稳定运行带来巨大的安全隐患1。因此，根据最新的 IEEE 1547 2018 标准2以及我国光伏接入配电网的相关规定3，需要在孤岛发生的0.162.00 s内实现孤岛状态检测。已有孤岛检测方法可分为被动式

4、45、主动式67、通信式三大类。被动式孤岛检测方法通过采集并网点处的数据，监测逆变器输出端的电压、频率、相位、谐波是否超过人工设定的阈值，进而识别孤岛运行状态。主动式孤岛检测方法通过向光伏逆变器注入扰动信号，采集系统并网点处放大变化的电气量进行孤岛检测。通信式孤岛检测方法的准确率较高，但是高昂的额外设备成本使其在实际应用场景中受到限制。传统的主动式、被动式孤岛检测方法均需人工整合判定阈值，且大多依靠单一的电气特征量作为检测依据，其可靠性、有效性不足以满足日益复杂的并网系统的安全运行需求，易在系统电能质量扰动或其他干扰情况下发生检测误判。近年来，随着机器学习、深度学习等人工智能技术的发展，针对传

5、统孤岛检测方法存在的问题，各种智能孤岛检测方法被陆续提出，例如：文献 89分别基于典型方法支持向量机（support vector machine，SVM）、决策树（decision tree，DT）构建了孤岛检测模型；但考虑到典型方法存在单一弱分类器的效率低、输出不稳定的问题，文献 1012 分别基于集成学习方法随机森林（random forest，RF）、梯度提升树（gradient boosting decison tree，GBDT）、自适应提升机（adaptive boosting，AdaBoost）构建了孤岛检测模型。智能孤岛检测模型通过结合特征分解、特征提取算法，构建输入特征向量

6、进行模型训练，以数据驱动的线下学习方式，将孤岛检测问题视为二分类问题，建立完备的数据库以实现多电气特征量与并网运行状态之间的映射关系，具有检测速度快、检测结果可靠、准确率高的特点。但基于典型方法、BP神经网络13等构建检测模型时存在难以适应高维度、大数据样本而导致响应时间过长的问题，且文献 14 选用 K 折交叉验证的方法检验孤岛检测模型，训练和检测模型准确性时可能存在抽取验证样本不合理、不科学的问题，且分类模型缺少相应的提高模型泛化能力的策略，在谐波干扰等情况下容易发生误判，导致模型过拟合的情况出现。智能孤岛检测模型虽能实现较高的决策准确收稿日期：20220223；修回日期：20220609

7、在线出版日期：20220805基金项目：国家自然科学基金资助项目（61976030）；高端外国专家项目（GDW20165200063）；重庆市高校优秀成果转化项目（KJZH4213）Project supported by the National Natural Science Foundation of China（61976030），the Highend Foreign Experts Program（GDW20165200063）and the Achievement Transfer Program of Institutions of Higher Education in Ch

8、ongqing（KJZH4213）80第 7 期朱春霖，等：基于LightGBM算法的光伏并网系统孤岛检测及其集成的可解释研究度，但其复杂的内部逻辑原理无法直观地在人类已有知识体系下解释模型的决策，因此智能模型在实际电力行业的应用中也受到限制。特别是在高风险、高安全运行要求的电力系统中，机器学习模型会承担安全措施、测试等苛刻的实际任务，模型的预测结果会对电力系统的实际安全运行产生极大的影响。虽然已有部分文献1517尝试对电力系统的暂态分析等机器学习模型进行可解释性研究，但缺乏对智能孤岛检测模型决策过程的理解，无法得到符合电力系统物理特性的关键特征分析，检修人员缺乏对当前并网系统状态信息的获取方

9、式。针对上述问题，本文提出了一种基于轻梯度提升机（light gradient boosting machine，LightGBM）算法18的智能被动式孤岛检测方法。采用带深度限制的leaf-wise决策树生长策略并引入正则项系数，在防止模型过拟合的同时提高模型的检测精度；通过对直方图算法进行做差加速，进一步加快了其运行速度。同时，采用分层抽样的 K折交叉验证，检验LightGBM 算法建立二分类模型的准确性。进一步地，提出集成的孤岛预判可解释框架，以基于决策树的 Shapley值加性解释（decision tree based Shapley additive explanation，Tre

10、eSHAP）方法作为主干，在全局解释中与累计局部效应（accumulated local effect，ALE）进行单特征和特征交互对模型预测结果的定性分析；利用局部代理模型（local interpretable model-agnostic explanation，LIME）与TreeSHAP对模型单样本的预测结果进行局部性分析。通过建立对智能孤岛检测模型预测过程及结果的理解和信任，提高用户对智能孤岛检测模型的信赖度，更好地理解和分析预测结果及当前系统状态，推进智能检测模型在电力系统中的实际应用。1 LightGBM算法的基本原理LightGBM是一种高效实现GBDT的梯度提升框架，兼顾了

11、集成学习策略的优异性能。采取单边梯度采样算法、互斥特征捆绑算法这2种算法，并利用直方图算法进行优化，选取带深度限制的 leaf-wise决策树生长策略，大幅缩短了训练时间，减小了内存消耗，解决了过拟合问题，可以在更高效地处理电力系统中海量运行数据的同时，兼顾分类的高准确性。1.1GBDT集成学习框架以1棵训练得到的决策树作为分类器往往不能很好地处理孤岛检测任务，且分类能力较差。因此，通过集合多个弱分类器的学习策略，可形成一个强的分类模型。GBDT 以分类回归树（classification and regression tree，CART）作为基本分类器的集成梯度提升框架，采用加法模型与前向分

12、步算法，得到以1组回归树组合的最终模型 f?(x)，其中x为实例的样本特征值。考虑到基于残差拟合决策树的GBDT只能处理回归类问题，因此本文采用损失函数的负梯度取代残差的方式来拟合本轮损失的近似值，进而拟合得到1棵CART。第t轮中第i（i=1，2，N；N为样本总数）个样本的损失函数L的负梯度rti为：rti=-|L(yi，f(xi)f(xi)|f(x)=ft-1(x)（1）式中：xi为第i个样本的输入特征值；yi为第i个样本的真实值。利用(xi，rti)拟合1棵CART，得到第t棵回归树，其对应的叶节点区域为Rtm（m=1，2，M），其中M为叶节点数量。使用贪心思维只考虑局部最优化，针对每一

13、个叶节点，求解使损失函数最小，即使拟合叶节点最好的输出值ctm，如式（2）所示。ctm=argmincxiRtmL(yi，ft-1(xi)+c)（2）式中：c为拟合的叶节点输出值。令I(xRtm)为输入变量 x 在Rtm的叶子节点区域的简单参数化函数，则决策树的拟合函数ht(x)为：ht(x)=m=1MctmI(xRtm)（3）更新获得本轮的强分类器为：ft(x)=ft-1(x)+m=1MctmI(xRtm)（4）设 f0(x)为初始模型，通过T个基模型迭代组合得到 fT(x)，即为最终的强分类器，如式（5）所示。f?(x)=fT(x)=f0(x)+t=1Tm=1MctmI(xRtm)（5）1

14、.2优化决策树学习1.2.1直方图算法及其优化在训练决策树时，采用基于直方图的决策树算法对每个连续的浮点数据进行离散化处理，即将所有样本在该特征上的取值划分到某一个桶（bin）中。最终将特征的取值由连续值转化为离散值。采用直方图算法无需遍历数据，只需要遍历k个桶即可找到最佳的分裂点，其优化示意图如图1所示。1.2.2带深度限制的leaf-wise决策树生长策略考虑到在决策树的生长过程中，很多叶节点分裂后所获得的信息增益较低，对任务分类结果的影响不大，会在带来不必要的计算量的同时，减慢模型图1直方图算法的优化示意图Fig.1Optimization schematic diagram ofhis

15、togram algorithm81电力自动化设备第 43 卷的训练速度。LightGBM 算法采用带深度限制的leaf-wise决策树生长策略，即叶节点分裂生长，如图2所示。该策略每次从当前的所有叶节点中找到分裂增益最大的一个叶节点进行分裂。相较于按层生长策略，在相同的分裂次数下，带深度限制的leaf-wise决策树生长策略可以更好地减小误差，提高精度。考虑到光伏并网系统中存在电容切入、三相系统故障等非孤岛运行工况所导致的电气量骤变现象，训练后的模型容易出现过拟合的情况，因此通过引入最大深度限制，可以在保证高效率的同时，防止过度拟合训练数据的情况。2 模型预测的可解释性研究复杂的

16、智能孤岛检测模型以非线性函数叠加的决策方式使其可解释性欠佳。在处理孤岛决策任务中，仅能得到检测结果，而不能获取除模型输出结果之外足够的可理解信息，故不可解释性制约了其实际应用，需对训练好的孤岛检测模型输出决策进行成因分析。2.1基于合作博弈论的Shapley值Shapley值加性归因方法作为建模后的解释框架19，通过计算每个特征对模型预测 f?(x)的贡献解释实例的预测。基于Lloyd Shapley教授在合作博弈论中提出的最佳Shapley值，并在其启发下构建一个加性解释模型g(x)，如式（6）所示。g(x)=0+j=1nj（6）式中：n为特征数量；0为模型对样本预测的基准值；j为特征 j 的特征归因Shapley值。在特征值都存在的情况下，使得特征归因的总和等于要解释模型的输出，即 f?(x)=g(x)。因此，基于合作博弈论中的价值分配问题，计算具有特征和不具有每个特征的模型预测，获得特征的边缘贡献，取所有特征贡献的平均值，以获得该特征的Shapley值j，即在所有特征值组合上加权求和，计算式如下：j=|S！()n-|S-1！n！(fx(S xj)-fx(S)（7）S x1，x2，

展开阅读全文

基于LightGBM算法的...岛检测及其集成的可解释研究_朱春霖.pdf