1、检测与试验电器与能效管理技术(2023No 3)王建元(1971),男,教授,博士,研究方向为智能配电网运行与控制、大数据分析等。刘柯辰(1998),女,硕士研究生,研究方向为电力大数据分析。基于经验模态分解与多视角聚类的异常用电模式检测王建元,刘柯辰 现代电力系统仿真控制与绿色电能新技术教育部重点实验室(东北电力大学),吉林 吉林132012摘要:针对现有异常用电检测方法检出效率低下的问题,提出一种基于经验模态与多视角聚类的异常检测方法。遵循“经验模态分解 维度制约 多视角聚类 横向检测 纵向检测”的流程,通过多视角聚类结合初步判据,显著提高了检出率。在异常检测算法中,提出基于网格的熵离群因
2、子(Grid-EOF)算法,并基于纵向检测给出新的判据,提高了不明显窃电行为用户的检出率。最后,用国家电网智能电表实测数据检测验证,结果表明多视角聚类和改进算法以及纵向检测的引入,能有效提高异常检测模型的检出率和准确率。关键词:异常用电检测;经验模态分解;多视角聚类;香农熵中图分类号:TM930文献标志码:A文章编号:2095-8188(2023)03-0073-08DOI:10 16628/j cnki 2095-8188 2023 03 012Abnormal Power Consumption Mode Detection Based on EmpiricalMode Decomposi
3、tion and Multi-View ClusteringWANG Jianyuan,LIU Kechen Key Laboratory of Modern Power System Simulation and Control enewable Energy Technology,Ministry of Education(Northeast Electric Power University),Jilin 132012,ChinaAbstract:In order to solve the low detection efficiency of the existing abnormal
4、 power consumption detectionmethods,the anomaly detection method based on empirical mode and multi view clustering is proposed Followingthe process of empirical mode decomposition-dimensional constraints-multi-view clustering-horizontal detection-vertical detection and combining the multi-view clust
5、ering with the preliminary criteria,the detection rate issignificantly improved In the anomaly detection algorithm,the grid-based entropy outlier factor(Grid-EOF)algorithm is proposed A new criterion is given based on the longitudinal detection,which can improve the detectionrate of users with unkno
6、wn electricity theft Finally,it is verified by the measured data of smart meters of the StateGrid of China The results show that the introduction of multi-view clustering,improved algorithm and longitudinaldetection can effectively improve the detection rate and accuracy of the anomaly detection mod
7、elKey words:abnormal electricity utilization detection;empirical mode decomposition;multi-viewclustering;Shannon entropy0引言在电网中,10 kV 及以下的配电网线损占总线损的 45%60%1,除管理因素如异步抄表、测量误差、管理失察等因素外,还与用户非法窃电有关2。过去一些低压窃电行为易于暴露,通过传统的窃电稽查手段现场检查的方式即可解决。然而近些年窃电的高科技手段越来越多。在一些农村地区,以换表方式较为普遍3,还有强磁、遥控等高科技手段高度隐蔽4,给窃电查处带来很大37电
8、器与能效管理技术(2023No 3)检测与试验的困难。泛在物联网和智能用电监控信息实时采集处理系统技术的广泛普及与应用,为国家电力公司收集到了大量超细粒度的电力负荷数据,为推进基于大数据智能驱动方式的用电行为分析工作提供了有效数据来源5。窃电检测主要可以分为有监督学习和无监督学习。有监督学习如文献 6 同时考虑功耗梯度和线损,建立相关混合神经网络检测模型,可以快速检测出异常用户。文献 7 将图卷积神经网络与欧式卷积神经网络结合,得到不同用户电力负荷曲线的潜在特征来进行异常检测。这些方法需要大量已经确定为窃电用户的标签,由于较难掌握所有确定为窃电用户的样本,导致一定程度限制了该类方法的应用。文献
9、 8 考虑异常用户对线路阻抗的影响,提出基于阻抗的相关判据,找出窃电用户,进一步提高了检测准确率。还有文献结合线损信息等多源数据查出窃电用户9,但在实际应用中同时期的线损信息和电力数据往往难以获得。无监督方法中有文献在对用电曲线特征提取 使 用 自 适 应 的 方 法,常 采 用 自 动 编 码器10-12,通常不需要人工参与,但是存在过度拟合、参数设置和局部最优问题12。此外还有基于异常检测13 和先聚类再对每一类不同用电模式的用户进行异常检测14-15 均属于无监督学习。主要是先根据用户用电曲线聚类,再通过特征提取,最后用主成分分析降维至二维平面进行异常检测。常用的聚类算法有 K-mean
10、s 聚类16、模糊C 均值17 聚类,可对不同用电模式的用户进行划分。只根据用电曲线聚类视角单一,较多异常点被聚在正常大类簇中,过多依靠后续异常检测步骤检出异常点,而异常检测所用特征仅针对用户之间横向离群检测,又降至低维,易造成漏判,且缺少对用户自身用电行为的纵向检测,使检出率进一步降低。鉴于此,与传统做法不同,本文尝试用信号分析领域的方法对用电数据进行分解,得到不同类型的曲线,起到一个降噪的效果;然后,在保留主要区分性特点的前提下将不同类型曲线经降维后作为多视角聚类代入的数据,实现在聚类步骤中完成不同用电习惯的用户之间、正常用户与异常用户之间的双功能初步分类。在异常检测步骤中提出改进的针对高
11、维数据的异常检测算法,用于不同用户之间的横向检测,并提出纵向检测的判据。最后,国家电网智能电表实测数据验证了模型的有效性。1异常用电模式下的横向离群特性与纵向离群特性离群检测方法用于用电异常用户检测并不陌生11-13。为了不丢失信息,本文采用高维异常检测的方式而不降至低维,EOF 适用于高维数据18,但 熵 异 常 因 子(Entropy Outlier Factor,EOF)需计算每一维数据点的频数,同时未考虑每一维离群贡献度的权重,本文提出 Grid-EOF 算法用于电力用户异常检测,即不同用户之间的离群检测,这是用户之间的横向离群检测。每个数据的离群因子代表离群程度,可理解为异常程度的量
12、化。从理论上讲,异常点的离群因子较高,正常点的离群因子较低,两者做差应相差较大。受此启发,反过来讲,如果两者的离群因子之差较大,势必有一点趋于异常点。本文提出的纵向检测思想来源于此。考虑到窃电行为发生时会与历史用电习惯有较大变化,呈现一种无规律用电的状态19。用户不同年份相同月份的用电量离群检测同样可结合本文提出的 Grid-EOF 算法,先分别计算每一年内所有月份离群贡献度,求和可得到这一年的离群因子,再将不同年份的离群因子两两做差取最大值作为该用户纵向检测的窃电用户的判据。如前所述,此差值越大,势必有一年趋于离群点,据此用来量化用户不同年份用电习惯的差异,即正常用电行为与异常用电行为的差异
13、。电力用户用电行为具有多样性。用户横向离群点检测需具有相似用电行为,否则这一类的正常用户对于另一类来说是离群的,真正异常用户未被检测出,增加了误判。此外,聚类算法本身也可分离出部分异常点20。针对上述情况,本文首先通过选择多视角曲线,再经降维后带入多视角聚类算法实现用户双功能分类,最后进行横向检测与纵向检测。2算法原理与实现流程2 1多视角聚类经验模态分解21 能反映信号中的突变信息,47检测与试验电器与能效管理技术(2023No 3)本文对电力用户用电曲线进行经验模态分解(Empirical Mode Decomposition,EMD),起到初步降噪的效果同时反映用户用电情况。原始信号经E
14、MD 处理后可表示为f(t)=ni=1ci(t)+r(1)式中:ci(t)分解出的第 i 个 IMF 分量;n IMF 分量的数目;r 残余分量。本文将用户原始用电数据经 EMD 分解,经过分解得到 IMF1 分量,进而利用希尔伯特变换求出瞬时幅值(INSA)、瞬时频率(INSF)、瞬时相位图(INSP)21。典型正常用户与明显窃电用户在以上曲线图的差异明显,考虑到 EMD 的优势是降噪同时反映信号的突变信息,因此本文选择这 4种曲线作为待选视角,经实验,最终选择 IMF1 和INSA 两个视角经降维后作为多视角聚类(Graph-based Multi-view Clustering,GMC)
15、的输入。基于图的 GMC18,22 算法模型在没有额外参数引入的情况下,直接用于产生聚类结果而不依赖任何其他聚类算法。GMC 模型的框架结构如图 1 所示。图 1GMC 模型的框架结构图 1 中,X1,Xm为 m 个视角的数据矩阵,本文选择的两个视角,m 为 2。Xv=X1v,Xnv为第 v 个视角数据矩阵,n 为用户数目。本文根据实验,选择初步能分离出最多异常用户的视角(IMF1 和 INSA 曲线)作为多视角数据输入,并降至 180 维,经过一系列融合学习,输出的聚类结果是不同用户类别标签,用不同正整数表示。传统做法是直接将用电数据单视角曲线带入聚类算法14-15,聚类步骤强调实现不同类别
16、用户之间的分类,不能初步分离出异常点,电力用户异常检测过多依靠后面的离群检测步骤。GMC 的优点是在聚类步骤可初步分离出异常点,实现双功能聚类,提高了初步检出率。2 2Grid-EOF 异常检测算法文献 23 针对高维数据离群检测的 EOF 算法,并证明了熵增可以对同一个维度的数据点离群贡献度(Attribute Outlier Contribution,AOC)进行量化,一个数据对象对其所有维度的 AOC 求和,得到 EOF,即离群因子。原算法 EOF 在用于处理电力数据时,存在两个问题:一是要知道每一维每个数据点出现的频数,而用电量数据是小数,需要将其映射为整数,本文通过网格划分实现,即在相同网格内的点用同一个整数代替。二是本研究的数据属于高维,数据对象在不同维度体现出的数据点分布状况不同。如有的维度的分布情况本身就是混乱的,这时某一数据点的离群是无意义的,故应当降低这一维度离群贡献度对离群因子的影响;反之,如果一些维度分布比较有序,此时某一数据点的离群才是真正的离群,应当提高这一维度的离群贡献度。综上所述,网格的划分在本算法中有两个功能:将小数映射为整数;便于计算维度的混乱程度。