1、第 47卷 第 6期 2023年 3月 25日Vol.47 No.6 Mar.25,2023http:/www.aeps-基于近邻传播聚类与LSTNet的分布式光伏电站群短期功率预测王晓霞1,俞敏1,霍泽健1,杨迪2(1.华北电力大学控制与计算机系工程学院,河北省保定市 071003;2.国网河北省电力有限公司营销服务中心,河北省石家庄市 050000)摘要:为了应对分布式光伏渗透率不断提高带给电网运行的挑战,提出了一种基于近邻传播聚类与长短期时间序列网络(LSTNet)的区域分布式光伏电站群短期功率预测模型。首先,利用近邻传播算法划分区域内不同季节的分布式光伏电站群,并通过皮尔逊相关系数确定
2、光伏出力的强相关气象因子,结合双线性插值法加密对应光伏电站群的气象数据。然后,通过 LSTNet挖掘光伏功率和气象因子序列的长期和短期时空依赖,并叠加自回归的线性分量,实现了群内多个光伏电站的同时预测。最后,利用美国国家能源部可再生能源实验室的实测数据集验证了所提方法的有效性。实验比较表明,所提预测模型具有较高的预测精度和鲁棒性。关键词:分布式光伏电站群;短期功率预测;近邻传播聚类;长短期时间序列网络0 引言近年来,光伏发电依靠其清洁能源的优势发展迅猛。光伏电站包含集中式和分布式两类,其中分布式光伏的装机容量占比逐年上升,此类用户的运行方式为自发自用、余电上网,通常电网公司用电采集系统仅有日发
3、电量数据,缺失运维数据。随着分布式光伏渗透率的不断提高,其波动性和随机性已经成为电网协调调度的不可控因素。因此,准确的分布式光伏短期功率预测对优化电力系统调度和保障电网安全运行具有重要意义1。光伏功率短期预测方法可分为统计方法和机器学习方法。统计方法主要包括灰色理论2、回归分析3、时间序列4等。这些方法模型简单,但预测精度和稳定性相对较差。机器学习方法主要有支持向量机5、随机森林6、极限学习机、神经网络等7。近年来,深度神经网络如卷积神经网络(convolutional neural network,CNN)8、长 短 期 记 忆(long short-term memory,LSTM)网络9
4、-10等也被引入,用以提高模型的拟合能力。结合不同神经网络的优势,CNN-LSTM11-12、循 环 神 经 网 络(recurrent neural network,RNN)-LSTM13等混合网络预测模型通过捕获光伏发电功率序列及相关影响因素之间的时序和空间关联性,进一步提高模型的预测精度。由于注意力机制能衡量输入特征的重要程度,被引入各种神经网络单元中以提高模型的泛化能力14-15。上述功率预测方法主要适用于具有气象采集系统和功率信息完备的光伏电站,而低压接入的分布式光伏电站点小而分散,单独配置气象量测装置投资成本太高16。文献 17-18 通过分析邻近电站与待预测电站光伏出力的空间相关
5、性,分别建立决策树、神经网络模型构建二者的非线性映射关系。文献 19 通过研究被聚为同一类的“光伏主站-光伏从站”的相关关系,建立反向传播(back propagation,BP)神经网络模型提高从站的光伏预测精度。文献20 对天气类型历史样本群进行空间相关的聚类分析,优化气象站点部署,提出基于“空间-时间关联”的多光伏用户功率预测模型。文献 21 基于时空相关性重构缺失功率数据,并利用三维卷积神经网络建立辐照度加密模型,以实现功率和气象数据的网格全覆盖。上述方案均有效提高了分布式光伏的功率预测精度,然而高昂的经济成本使其无法开展规模化工程实践。分布式光伏出力随机性与波动性强,具有明显的日周期
6、性,对单个分布式光伏电站进行功率预测不仅准确率低、对电网规划和调度影响小,且不同电站之间的模型适应性差、无法共用。对多个分布式光伏电站群进行区域预测可以有效提升精度与适 用 性。因 此,本 文 提 出 一 种 基 于 近 邻 传 播(affinity propagation,AP)聚类与长短期时间序列网络(long short-term time-series network,LSTNet)的区域分布式光伏电站群短期功率预测模型。首先,DOI:10.7500/AEPS20220324006收稿日期:2022-03-24;修回日期:2022-08-28。上网日期:2023-01-05。13320
7、23,47(6)学术研究 依据光伏电站属地气候特点将光伏出力数据进行季节标识,并通过 AP 聚类划分区域内不同季节的分布式光伏电站群,使每个电站群内的气象具有一致性。然后,针对大量分布式光伏不具备完整的公共气象站,利用皮尔逊相关系数确定关键气象因子,通过双线性插值法对相应的气象数据进行加密,实现了关键气象数据的全区域站群覆盖。最后,使用LSTNet 对群内的多个光伏电站同时进行预测,以提升大规模分布式光伏电站群短期功率预测精度。1 基于 AP聚类的分布式光伏电站群划分1.1光伏功率与气象因素的关联光伏出力与许多因素相关联,外部气象因素如光照强度、气温、湿度、云层移动、风速及风向等,内部技术参数
8、如装机位置及容量、光电转换效率、光伏电池板等。然而,大规模分布式光伏用户不仅严重缺乏装机位置等技术参数,而且没有提供光照等气象数据的公共气象站,更无法从中获取严格的符合气象关联的地理分区信息。因此,需要从已有的光伏数据中寻找刻画光伏出力本质的时空分布规律等效辐照度。由于电站输出功率与太阳辐照度间存在近似的线性关系(见附录 A 图 A1),大规模分布式光伏电站的光伏功率曲线可以作为等效辐照度反映该地的光照强度、温度等气象信息的变化过程。根据光伏功率历史数据的空间相关性对光伏电站群进行划分可以使站群簇内各电站数据特征趋同,具有气象一致性。一方面,为后续通过重构区域级气象数据作为每个分布式电站的气象
9、数据提供依据;另一方面,对分布式光伏电站群进行区域预测可以简化对每个单站进行预测的繁琐建模,降低预测难度。1.2AP聚类划分光伏电站群AP 聚类是一种基于信息传递进行簇划分的无监督聚类算法22。相较于 K-means聚类等传统聚类算法,该算法对离群点和异常值不敏感、聚类结果更稳定23。本文采用 AP 聚类对区域内各光伏电站的光伏功率进行聚类,将波动趋势一致的电站划分为同一类站群。该算法初始时将所有分布式光伏电站作为潜在的聚类中心,然后各电站之间基于“信息互递”迭代竞争聚类中心。如附录 A 图 A2 所示,电站数据点之间有吸引信息r(i,k)和归属信息a(i,k)两种信息交换机制。其中,吸引信息
10、r(i,k)表示电站k适合作为候选中心电站i聚类中心的程度;归属信息a(i,k)表示电站i选择电站k作为聚类中心的合适程度。AP 聚类作为一种无监督算法,本身无法直接评估聚类效果的好坏。为获得精确稳定的聚类结果,本文选取轮廓系数(silhouette coefficient)24对聚类结果进行评估,其公式如下:s(i)=n(i)-m(i)max m(i),n(i)(1)式中:s(i)为电站i的轮廓系数;m(i)为电站i样本xi与相同簇的其他样本的平均距离,称为凝聚度;n(i)为xi与其他簇中所有样本的平均距离,称为分离度。平均轮廓系数为所有样本轮廓系数的平均值,取值范围为-1,1,其值越大,簇
11、内距离越小,簇间距离越大,聚类效果越好。采用 AP聚类划分光伏电站群的步骤如下。步骤 1:将光伏功率数据划分为 4 个季节,分别进行标准化处理。步骤 2:计算分布式光伏电站功率样本间的相似度s()i,k如式(2)所示,得到相似度矩阵S,其对角线元素s(k,k)是电站k样本xk能否成为站群聚类中心的评判标准,被称为参考值,其大小会影响聚类数量。s(i,k)=-xi-xk2(2)式中:|2表示求欧氏距离。步骤 3:计算吸引度矩阵r元素r(i,k)和归属度矩阵a元素a(i,k)。r(i,k)s(i,k)-maxk k a(i,k)+s(i,k)(3)a(i,k)min0,r(k,k)+maxi i,
12、k 0,r(i,k)(4)a(k,k)maxi k 0,r(i,k)(5)步骤 4:更新r(i,k)和a(i,k),引入阻尼系数调节其收敛速度及迭代稳定性。r(d+1)(i,k)=r(d)(i,k)+(1-)r(d+1)(i,k)a(d+1)(i,k)=a(d)(i,k)+(1-)a(d+1)(i,k)(6)式中:d表示迭代次数。步骤 5:若超过预设的迭代次数或聚类划分不再改变,转向步骤 6;否则,重复步骤 3和步骤 4,继续计算。步骤 6:在当前参考值下根据聚类结果计算轮廓系数,确定聚类中心及各类光伏电站群簇,转向步骤 2并改变参考值。步骤 7:分析不同聚类数下的轮廓系数,选定最佳聚类结果,
13、完成光伏电站群划分。2 气象因子的选取与加密考虑到划分光伏电站群后,同一光伏电站群的地域存在气象一致性,可将每类光伏电站群最具相关性的聚类中心电站选取为代表电站,并将代表电站的气象数据作为该区域的整体气象数据。由于大134王晓霞,等 基于近邻传播聚类与 LSTNet的分布式光伏电站群短期功率预测http:/www.aeps-部分分布式光伏电站只有地理位置较远的集中式光伏电站的气象数据以及粗粒度的天气预报可用,在代表电站没有对应的气象站时,可以采用双线性插值法对不同站群的代表电站的气象数据进行加密,使得每个站群都有自己的气象数据,从而实现关键气象数据的全区域站群覆盖。因此,本文首先利用皮尔逊相关
14、系数确定光伏输出功率的强相关气象因子,然后通过双线性插值法对相应的气象数据进行加密用于后续神经网络模型的预测。2.1气象因子的选取在光伏电站的内部技术参数基本保持不变的情况下,从外部气象因素(辐照度、温度、湿度等)中筛选出影响光伏输出功率的主要因素至关重要。利用皮尔逊相关系数R(X,Y)衡量光伏输出功率与各影响因素之间的相关程度,即R(X,Y)=c=1C(Xc-X)(Yc-Y)c=1C(Xc-X)2c=1C(Yc-Y)2(7)式中:Xc和Yc分别为标准化后光伏电站样本c的输出功率和气象因素样本点;X和Y分别为由Xc和Yc组成的矩阵;X和Y分别为Xc和Yc的平均值;C 为样本数。相关系数的取值范
15、围为-1,1,其绝对值越大,相关性越强。2.2基于双线性插值的气象因子加密双线性插值法作为经典的统计加密法,操作简单,广泛应用在信号处理、数字图像等方面。其核心思想是在两个方向分别进行一次线性插值,基本原理示意图如附录 A 图 A3 所示。在气象数据加密中,插值函数的两个方向是指气象站间的东西距离和南北距离,如x轴和y轴所示;P为待求气象站点,Q11、Q12、Q21和Q22为其周边最接近的 4 个已知气象站。Q11和Q21通过x轴方向的线性插值得到点R1的气象数据f()R1,如式(8)所示,同理可得点R2的气象数据f()R2。由点R1、R2通过y轴方向的插值,可以得到点P的气象数据f()P,如
16、式(9)所示。|f()R1x2-x0 x2-x1f()Q11+x0-x1x2-x1f()Q21f()R2x2-x0 x2-x1f()Q12+x0-x1x2-x1f()Q22(8)f(P)y2-y0y2-y1f(R1)+y0-y1y2-y1f(R2)(9)式中:x1和y1分别为气象站Q11的横、纵坐标;x2和y2分别为气象站Q22的横、纵坐标;x0和y0分别为点P的横、纵坐标。3 基于 LSTNet的预测模型LSTNet模型25须保持输入、输出的维度一致,无法将气象数据仅作为多站光伏出力的特征变量输入。本文对原 LSTNet 模型进行修改,将光伏发电功率与气象因子作为模型输入,非线性分支的全连接层和线性分支的自回归层的输出维度修改成与光伏电站的数量维度相同,并将两个分支的预测结果叠加得到最终预测结果。这样使得模型可在不增加输出维度的基础上对气象特征进行提取,从而更好地挖掘多站光伏出力和相关气象因子时间序列的长期趋势和短期变化特征,结合线性和非线性分支增加模型的稳健性,有效预测未来时刻的光伏发电功率。LSTNet 的结构如附录 A 图 A4 所示,由卷积层、循环、循环-跳过层和全连接层构成