1、2023.1Vol.47No.1研 究 与 设 计收稿日期:2022-06-29基金项目:国家自然科学基金(61871410);珠海市产学研项目(ZH22017001200053PWC);佛山市深入推进创新驱动助力工程项目(2021003)作者简介:朱坤(1996),男,四川省人,硕士,主要研究方向为太阳能光伏发电技术。通信作者:付青,E-mail:基于EEMD-Kmeans-ALO-LSTM的短期光伏功率预测朱 坤,付 青(中山大学 物理学院,广东 广州 510275)摘要:光伏功率预测对电网调度具有重要意义。针对光伏功率数据具有较强波动性和不稳定性的特点,提出了一种基 于 集 成 经 验
2、模 态 分 解(ensemble empirical mode decomposition,EEMD)、K 均 值 聚 类 算 法(Kmeans clusteringalgorithm,Kmeans)和蚁狮优化(ant lion optimization,ALO)算法优化的长短期记忆神经网络(long short-term memorynetwork,LSTM)的光伏功率组合预测模型。对光伏功率数据进行 EEMD 分解,得到相应的本征模态分量(intrinsicmode function,IMF)和残差项;引入 Kmeans聚类对分解后的序列重构,降低序列复杂度和分量数量;将重构后的子序列输入
3、经 ALO优化的 LSTM 模型进行预测,并将各序列预测结果简单加和作为最终预测值。与目前应用较广泛的EEMD-LSTM模型对比,表明EEMD-Kmeans-LSTM和EEMD-Kmeans-ALO-LSTM模型的预测精度均得到一定程度的提高。关键词:Kmeans聚类;集成经验模态分解;蚁狮优化算法;长短期记忆神经网络;光伏功率预测中图分类号:TM 615文献标识码:A文章编号:1002-087 X(2023)01-0103-05DOI:10.3969/j.issn.1002-087X.2023.01.023A photovoltaic power forecasting method bas
4、ed on EEMD-Kmeans-ALO-LSTMZHU Kun,FU Qing(School of Physics,Sun Yat-sen University,Guangzhou Guangdong 510275,China)Abstract:Photovoltaic power prediction has significance for power grid dispatching.This article focuses on thecharacteristics of volatility and instability in photovoltaic power,propos
5、es a combination forecasting model using thelong short-term Memory(LSTM)network optimized by ant lion optimization(ALO)algorithm based on ensembleempirical mode decomposition(EEMD)and Kmeans clustering algorithm(Kmeans).First,the photovoltaic powerdata is decomposed by EEMD.The corresponding intrins
6、ic mode functions and residual are obtained.Then,thedecomposed sequence is reconstructed by Kmeans clustering to reduce the sequence complexity and the number ofdecomposed components.Finally,the reconstructed subsequence is input into the LSTM model optimized by ALO forprediction,and the prediction
7、results of each sequence are simply summed as the final prediction value.Comparedwith the currently widely used EEMD-LSTM algorithm,the prediction accuracy of the EEMD-Kmeans-LSTM andEEMD-Kmeans-ALO-LSTM algorithms have been improved to a certain extent.Key words:Kmeans;EEMD;ant lion optimization;lo
8、ng short-term memory network;PV power prediction光伏发电作为新能源的代表之一,在中国获得了巨大的发展,越来越多的光伏电站接入到电网1。但是光伏功率与气象因素高度相关,具有波动性、随机性、不稳定的特征,因此给电网的稳定运行和调度带来了新的挑战。针对此问题,国内外学者通过研究光伏功率短期和超短期预测问题,提前做好电网规划,提高电网运行的稳定性。预测模型方面,部分研究主要使用浅层神经网络构建模型,进行光伏功率预测时会因为模型欠拟合而导致预测精度不足2-5。相较于浅层神经网络在解决复杂问题时的劣势,深度学习有着更好的学习能力和泛化能力6,因此成为近两年光
9、伏功率预测领域的新星。文献7-9采用深度学习完成光伏功率预测任务,但是由于原始序列的波动性,使得模型精度仍有不足。在数据预处理方面,文献10使用经验模态分解(empirical mode decomposition,EMD)对光伏功率序列进行分解,降低波动性后,分别使用LSTM预测各分量再合并为最终结果,但未考虑 EMD 分解可能存在模态混叠的问题进而影响预测精度。文献11引入变分模态分解(variational modedecomposition,VMD)对光伏功率序列分解后使用LSTM模型进行预测,但 LSTM的网络层数以及网络神经元个数依据主观经验进行调节无法确保模型精度12。另外在预测
10、模型所需信息方面,以上研究均依赖气象信息,针对单变量光伏功率预测的研究较少。1032023.1Vol.47No.1研 究 与 设 计为了解决上述模型存在的问题,考虑到 EEMD 和 LSTM的优势13,提高模型的适用范围,本文将EEMD和LSTM结合并且引入 Kmeans算法对 EEMD分解后的光伏序列分量进行合并重构,提出EEMD-Kmeans数据处理方法。Kmeans聚类算法从空间上(欧氏距离)计算分量之间的相似度,相似的分量合并会降低分解后序列的数量和复杂度,从而降低模型运算时间,同时提高预测精度。然后采取ALO算法替代传统人工调参,对LSTM的参数进行优化,使预测网络达到最佳状态。通过
11、实验证明本文提出的EEMD-Kmeans-ALO-LSTM单变量组合预测模型相较于其他模型(LSTM、BPNN、EEMD-LSTM等)具有更好的预测精度,并验证了 EEMD-Kmeans数据处理方法能够在一定程度上提高数据质量进而提高预测精度。1 EEMD-Kmeans数据处理方法光伏功率数据本身具有较强的日周期性,但是由于受到天气的影响大,具有较强的波动性、随机性和不稳定性。为了减少随机波动对光伏功率预测精度的影响,本文首先采取EEMD算法对光伏功率数据进行分解,得到不同时间尺度的数据分量,并采取 Kmeans聚类的方式将分量进行聚类合并,降低数据复杂度,提高模型训练速度和预测精度。1.1
12、集成经验模态分解EMD 是一种适用于非线性、非平稳序列的信号分解方法,理论上可用于任何非平稳的信号,可以将信号分解为不同时间尺度的本征模函数(intrinsic mode function,IMF)和残余项(res),相比传统分解方法,具有直接、直观、后验、自适应的特点。EMD的分解结果形式如式(1)所示。p()t=i=1nci()t+res(1)式中:ci(t)为 IMF 分量;res 为残余项;p(t)为光伏功率原始序列。实际应用中,由于光伏功率波动性大,存在噪声干扰,因此在EMD分解过程中可能出现模态混叠现象,不能获得理想的光伏功率子序列,使预测的可靠性和适用性下降。而EEMD在分解过程
13、中添加了高斯白噪声,解决了模态混叠问题,实现了信号在适当时间尺度的自动分布,也保证了分解方法依然具备先验性。EEMD的计算步骤如下:(1)在光伏功率信号中加入高斯白噪声;(2)对上一步的光伏功率序列进行EMD分解,分解得到n只IMF分量ci(t)和残余项res;(3)迭代进行前两步,重复次数N,每次加入不同幅值大小白噪声,对每次分解的IMF分量求和,并且以平均值作为最终的IMF分量。1.2 K均值聚类算法Kmeans思想简单,对于确定的样本集合,算法将样本集合分为 K 个簇,让簇中的样本点尽可能接近,同时保证簇间距离尽可能大14。设聚类的簇为Ci,ui为簇Ci的均值向量,即:ui=1cix c
14、ix(2)则最小化平方误差E为:E=i=1kx cix-ui22(3)本文中,输入样本集为分解后的 12 个 IMF 和残余项(res),设定K为聚类簇数,经过多次实验,K值为8时预测效果最好。Kmeans的计算流程如下:(1)从 13个样本序列中随机选择 8个样本作为初始质心向量:u1,u2,.u8。(2)分别计算每个点到8个聚类中心的欧氏距离,进而将该点分到与聚类中心最近的簇。(3)重新计算每个簇的均值,重复前两步,直到均值不再变化,输出聚类结果C=C1,C2,.C8。Kmeans算法将形态相似的分量进行聚类,随后将分类一致的分量进行相加合并,增强合并后分量的整体趋势,减少了噪声对整体趋势
15、的影响,降低序列的复杂度,进而提高预测精度,同时因为合并导致分量数量减少,能够提高模型的训练和预测速度。2 蚁狮算法优化的LSTM网络2.1 蚁狮优化算法ALO算法是 Seyedali Mirjalili在 2015年提出的模仿自然界中蚁狮狩猎过程的启发式算法15。该算法模拟了猎物(蚂蚁)的随机游走,蚁狮设置陷阱、捕食猎物以及重建陷阱等主要步骤。首先,猎物的随机游走会使其陷入蚁狮设置的陷阱,该过程中猎物游走的超球面会不断缩小,加快算法收敛。然后,蚁狮捕食猎物,将位置更新至猎物位置,重建陷阱,获取更好的狩猎机会,寻求更优解,因此算法具有优秀的全局搜索能力。同时,结合精英蚁狮和轮盘赌策略使得ALO
16、算法具有更好的寻优能力。ALO算法具有使用简单、寻优精度高的优点,在文中用于优化LSTM的超参数。2.2 LSTM神经网络LSTM 神 经 网 络 模 型 是 一 种 改 进 的 循 环 神 经 网 络(RNN),通过记忆细胞保存前一时刻的历史信息,并且通过遗忘门有选择地记忆或者忘记历史信息,解决了RNN存在的梯度爆炸和梯度消失的缺点,因此适用于长时间序列预测问题。LSTM模型的计算节点有输入门、输出门、遗忘门和记忆细胞Cell。其中输入、输出、遗忘门是控制信息的关键,遗忘门是对需要记忆信息的筛选,Cell则用来更新当前时刻状态。输入门的 xt经过激活函数 sigmoid和 tanh后控制记忆单元中的保存向量,其中 xt为光伏功率输入向量。记忆单元遗忘部分由 xt和上一时刻中间输出 ht1决定。中间输出ht由更新后的St和ot决定。计算方法如下:ft=sigmoid()Wkxxt+Whiht-1+bf(4)it=sigmoid()Wixxt+Wihht-1+bi(5)gt=tanh()Wgxxt+Wgtht-1+bg(6)ot=sigmoid()Wdxxt+Wohht-1+bo(7)h