1、Electrical Automation电气自动化 2023 年第 45 卷 第 1 期电动汽车技术Electric Vehicle Technology基于改进长短期记忆网络的电力负荷预测研究王兆辉1,康之增1,陈曦2,郝保中3,张瑜4,孙亮亮4(1 国网河北省电力有限公司,河北 石家庄050021;2 国网河北省电力有限公司信息通信分公司,河北 石家庄050021;3 国家电网有限公司大数据中心,北京100052;4 国网信息通信产业集团有限公司,北京100052)摘要:针对用户用能分析中电力负荷预测模型的变量冗余和收敛困难问题,提出一种基于改进长短期记忆网络(long short-te
2、rm mem-ory,LSTM)的短期负荷预测模型。首先利用 FP-tree 对复杂的负荷数据和气象数据进行分析,筛选负荷强关联因素,构建出训练数据集;其次建立 LSTM 负荷预测模型,并使用关联性分析得到的强关联因素训练负荷预测模型;最后,选取美国 Homestead地区的历史数据进行仿真分析。通过对比遗传算法优化反向传递神经网络算法和鲁棒性损失函数的人工神经网络型的预测结果,预测模型的精度和稳定性满足要求,在实际中具有一定的应用价值。关键词:负荷预测;关联性分析;FP-tree 算法;长短期记忆网络;数据挖掘DOI:10 3969/j issn 1000 3886 2023 01 004
3、中图分类号 TM714 文献标志码 A 文章编号 1000 3886(2023)01 0014 04esearch on Power Load Forecasting Based onImproved Long Short-term Memory NetworkWang Zhaohui1,Kang Zhizeng1,Chen Xi2,Hao Baozhong3,Zhang Yu4,Sun Liangliang4(1 State Grid Hebei Electric Power Co,Ltd,Shijiazhuang Hebei 050021,China;2 Hebei Information
4、 Telecommunication Branch,State Grid Hebei Electric Power Co,Ltd,Shijiazhuang Hebei 050021,China;3 Big Data Center,State Grid Corporation of China,Beijing 100052,China;4 State Grid Information Telecommunication Group Co,Ltd,Beijing 100052,China)Abstract:Aiming at the problem of variable redundancy a
5、nd convergence difficulties of power load forecasting models in user energyconsumption analysis,a short-term load forecasting model based on improved long short-term memory(LSTM)was proposed Firstly,the FP-tree was used to analyze the complex load data and meteorological data,screen the factors with
6、 strong load correlation,andconstruct the training data set;Secondly,the LSTM load forecasting model was established,and the strong correlation factors obtainedfrom correlation analysis were used to train the load forecasting model;finally,the historical data of Homestead in the United Stateswere se
7、lected for simulation analysis,and the prediction results of the genetic algorithm to optimize back propagation neural network(GA-BP)algorithm and the artificial neural network(ANN)model of robustness loss function were compared The accuracy andstability of the prediction model meet the requirements
8、 and have certain application value in practiceKeywords:load forecast;correlation analysis;FP-tree algorithm;long short-term memory(LSTM);data mining定稿日期:2021 09 16基金项目:国家电网有限公司总部科技项目“能源大数据中心建设关键技术及标准体系研究”资助(5700 202190175A 0 0 00)0引言随着国家能源革命和数字革命的深度融合,大数据和人工智能技术在能源领域开展深入结合与应用,推进能源革命,促进能源资源的合理配置,大幅度
9、提高能源的利用效率。用户电能数据大多来源于电表采集,使用数据挖掘、数据分析和深度学习等技术对其进行分析,可深度了解政府、企业和居民的能源需求,更好地制定发电计划。电力负荷数据属于时序变化序列,受经济水平、气象和人口等非线性因素影响。数据既有历史负荷信息特征,还受外部动态因素影响,表现出随机性,常规建模方法难以拟合负荷规律。随着深度学习技术的不断发展,为电力负荷预测建模提供了新的方法。深度学习在时间序列建模方面应用广泛,尤其在能源消耗预测方面。文献 1对负荷台区的电压、电流、功率及时间等特征信息进行综合利用,在长短期记忆(long short-term memory,LSTM)模型和宽度 深度(
10、widedeep)模型的基础上同时建立基于 widedeep-LSTM 的深度学习短期负荷预测模型,对台区进行日前预测。文献 2针对负荷数据,建立基于 LSTM 模型和极端梯度提升(eXtreme gradient boosting,XGBoost)模型的组合预测模型,将误差倒数法与所提预测模型进行组合预测。文献 3建立一种堆叠长短期记忆网络模型,并综合考虑不同时间尺度的历史负荷、地区经济和气候数据,将这些信息整合到模型中。文献 4 针对电网企业海量数据分类的问题,提出一种改进的 K-means 数据分类方法,以聚类结果为基础建立 LSTM 模型,提高了电力负荷预测的精度。针对电力负荷预测问题
11、,选用合适的模型41Electrical Automation电力系统及其自动化Power System Automation电气自动化 2023 年第 45 卷 第 1 期及方法是提升负荷预测精度的一大难点。目前电网的数据日益增多,负荷预测建模难度增加。通过数据挖掘算法分析数据集,在允许的精确度范围内,降低模型的复杂程度。关联规则挖掘旨在寻求事物之间存在的隐含联系,是数据挖掘中最重要的步骤之一5。付沙等人6 提出了先验(Aprio-ri)算法,但此算法需要反复扫描数据集,导致效率低下。对此HAN 等人7 提出了一种改进算法 FP-tree 算法,仅需要扫描两次数据集即可得到频繁项集8,提高了
12、算法效率。针对电力大数据的特点,也可以利用数据挖掘算法寻找负荷的强关联因素,文献 9 针对气象因子和电力负荷关联程度,采用 Apriori 算法挖掘负荷与气象因子的关联规则,为电力公司提供了辅助决策。综上所述,电力负荷数据受到多种因素的影响,且不同影响因素对于负荷的影响程度的差异性很大,即负荷与部分影响因素之间存在着很强的关联性。针对电力负荷建模问题,本文提出使用关联性算法选择影响因素,并建立负荷预测模型。首先,使用FP-tree 算法对电力负荷数据和气候信息数据进行关联规则挖掘,找到与负荷关联性最高的数据集;其次,建立 LSTM 电力负荷预测模型,并将挖掘到的强关联数据集输入到模型中进行预测
13、;最后,结合美国 Homestead 市的电力负荷与天气数据验证所提预测方法的有效性。1关联规则分析关联规则是一种在大量数据中高效地提取最感兴趣模式的任务。当某两个或两个以上的数据集存在着一定的联系,可以称为相互关联。关联分析的过程即为寻找海量数据中有价值的隐藏联系,由置信度、支持度和提升度来形容这些联系的强弱。1 1频繁项集评估标准1)支持度数据集中关联数据出现的频次在总数据集的占比定义为支持度,即关联数据出现的概率。若分析数据 X 与 Y 的关联性,则支持度如式(1)所示。Support(X,Y)=P(XY)=number(XY)number(AllSamples)(1)式中:number
14、(XY)为 X 和 Y 同时出现的频次;number(AllSam-ples)为总数据集的数据量。当对多组数据进行分析时,例如数据 X、Y 和 Z,支持度如下:Support(X,Y,Z)=P(XYZ)=number(XYZ)number(AllSamples)(2)式中:number(XYZ)为 X、Y 和 Z 同时出现的频次;number(All-Samples)为总数据集的数据量。2)置信度置信度是指数据的条件概率,即当一个数据出现时,其关联数据出现的概率,若数据为 X 和 Y,则置信度为:Confidence(XY)=P(X Y)=P(XY)/P(Y)=number(XY)number
15、(Y)(3)式中:number(Y)为 Y 出现的频次。多个数据进行分析时,例如数据 X、Y 和 Z,则置信度如式(4)所示。Confidence(XYZ)=P(X YZ)=P(XYZ)/P(YZ)=number(XYZ)number(YZ)(4)式中:number(YZ)为 Y 和 Z 同时出现的频次。3)提升度提升度是在 Y 出现时,X 同时出现的概率,与 X 的总体出现的概率比,即:Lift(XY)=P(X Y)/P(X)=number(XY)number(X)number(Y)(5)式中:number(X)为 X 出现的频次。在关联性分析过程中,当提升度大于 1,则 XY 的强关联规则
16、是有效的;当提升度小于等于 1,则 XY 的关联规则是无效的。1 2FP-tree 算法FP-tree 算法是用于挖掘数据集中关联规则的算法,找出在数据集出现频次高的集合。算法在搜索过程中使用数据结构临时存储数据,数据结构包括:项头表、FP-tree、节点链表。项头表记录所有负荷因素的 1 项频繁集,以出现频次高低依次排列;FP-tree 算法在内存中构建 FP 树结构,并将原始数据集映射到结构中;节点链表以一项频繁集为链表首项,依次指向 FP 树中一项频繁集的出现位置。FP-tree 算法流程如图 1 所示。图 1FP-tree 算法流程2改进 LSTM 负荷预测模型的建立2 1LSTM 循环记忆网络LSTM 循环网络具有外部循环神经网络循环外和内部的“LSTM 细胞”循环(自环),因此 LSTM 并不是在输入和循环单元的仿射变化简单施加一个逐元素非线性。与普通循环神经网络相比,每个单元有相同输入和输出,但是也具有更多参数的门控单元系统控制信息流动,其中关键组成部分是状态单元 S(t)i和线性自环,此处自环权重由遗忘门 f(t)i控制(时刻 t 和细胞 i),由sigmoid 单元将