1、 第4 1卷 第1期2 0 2 3年1月MA CH I N E R Y&E L E C T R ON I C SV o l.4 1N o.1J a n.2 0 2 3收稿日期:2 0 2 2 0 9 0 8作者简介:吴平雄(1 9 9 7-),男,福建福州人,硕士研究生,研究方向为风电功率预测;肖迎群(1 9 7 5-),男,湖南邵阳人,博士,副教授,研究方向为高维数据分析、机器学习。基于组合数据清洗与N L C o n v L S TM模型的多步风电功率预测吴平雄1,肖迎群2,张 苏2,林兴宇1(1.贵州大学电气工程学院,贵州 贵阳5 5 0 0 2 5;2.贵州理工学院大数据学院,贵州 贵
2、阳5 5 0 0 0 3)摘 要:针对风电数据在采集与传输过程中会产生大量缺失值和异常值,采用D B S C AN算法和最优组内差分法(O I V)组合筛删异常值,随机森林(R F)算法填补缺失值,提升数据准确性;并建立基于以C o n v L-S TM为单元的编码 预测(E F)网络的风电多气象输入多步预测模型,为了更好利用气象特征信息,在C o n v-L S TM模型的输入侧添加具有自注意力机制的非局部(N L)模块增强数据特征表现,从而搭建组合数据清洗方法的N L C o n v L S TM多步风电功率预测模型。实验结果表明,该方法能够进一步提高风电功率多步预测精度和稳定性。关键词:
3、多步预测;风电功率预测;C o n v L S TM;数据清洗;非局部操作中图分类号:TM 6 1 4 文献标志码:A 文章编号:1 0 0 1 2 2 5 7(2 0 2 3)0 1 0 0 1 3 0 7M u l t i s t e pW i n dP o w e rP r e d i c t i o nB a s e do nC o m b i n e dD a t aC l e a n i n ga n dN L C o n v L S TM M o d e lW UP i n g x i o n g1,X I A OY i n g q u n2,Z H A N GS u2,L I
4、NX i n g y u1(1.S c h o o l o fE l e c t r i c a lE n g i n e e r i n g,G u i z h o uU n i v e r s i t y,G u i y a n g5 5 0 0 2 5,C h i n a;2.S c h o o l o fB i gD a t a,G u i z h o uI n s t i t u t eo fT e c h n o l o g y,G u i y a n g5 5 0 0 0 3,C h i n a)A b s t r a c t:C o n s i d e r i n gt h a
5、 t a l a r g en u m b e ro fm i s s i n gv a l u e sa n do u t l i e r sw i l lb eg e n e r a t e dd u r i n gt h ec o l l e c t i o na n dt r a n s m i s s i o no fw i n dp o w e rd a t a,D B S C ANa l g o r i t h ma n do p t i m a l i n t e r c l a s sv a r i a n c e(O I V)m e t h o da r eu s e dt
6、 o f i l t e ro u to u t l i e r s,a n dr a n d o mf o r e s t a l g o r i t h mi su s e dt o f i l l i nt h em i s s i n gd a t a t o i m-p r o v e t h ea c c u r a c yo f t h ed a t a.T h ee n c o d i n g f o r e c a s t i n gn e t w o r kb a s e do nC o n v L S TMc e l l i sam u l t is t e pf o r
7、 e c a s tm o d e l f o rw i n dp o w e rw i t hm u l t i m e t e o r o l o g i c a l i n p u t.I no r d e r t om a k eb e t t e ru s eo fm e t e-o r o l o g i c a l f e a t u r e i n f o r m a t i o n,an o n l o c a lm o d u l ew i t hs e l f a t t e n t i o nm e c h a n i s mi sa d d e dt ot h ei
8、n p u ts i d eo f t h ee n c o d i n g f o r e c a s t i n gn e t w o r kt oe n h a n c e t h e r e p r e s e n t a t i o no fd a t a f e a t u r e s,s oa s t ob u i l dt h eN L C o n v L S TM m u l t i s t e pw i n dp o w e rp r e d i c t i o nm o d e l,ac o m b i n i n gd a t ac l e a n i n gm e t
9、 h o d.T h ee x p e r i-m e n t a l r e s u l t s s h o wt h a t t h i sm e t h o dc a n f u r t h e r i m p r o v e t h e a c c u r a c ya n ds t a b i l i t yo fm u l t i s t e p f o r e c a s-t i n go fw i n dp o w e r.K e yw o r d s:m u l t i s t e pp r e d i c t i o n;w i n dp o w e rp r e d i
10、c t i o n;C o n v L S TM;d a t a c l e a n i n g;n o n l o c a l o p e r a-t i o n0 引言近年来,随着全球节能减排的号召,可再生能源发电的规模也逐渐壮大;尤其风能储量大,在可再生能源中成本较低,具有良好的发展前景1。同时鉴于风能存在着较大的不确定性和间歇性,且大312 0 2 3(1)规模风电并网将对电网长期稳定性有不良影响2,因此,准确可靠的风电功率预测能为电力调度和能量管理等方面提供有力支持3。目前,短期风电预测方法主要有物理方法、统计学方法、人工智能方法以及组合方法4。物理方法计算复杂,不需要历史功率数据,
11、适合于中长期预测56。统计学方法利用大量历史风速和功率数据预测未来发电数据,但该方法对非平稳序列的预测效果欠佳。随着人工智能的发展,常用的机器学习方法、B P神经网络和支持向量机(S VM)在预测领域得到一定的认可78。风电数据在采集的过程中由于录入设备损坏和弃风限电等问题,数据中存在缺失值和异常值9;当数据中含有大量缺失值和异常值时,会严重影响模型的预测效果,盲目删除异常数据也会导致训练样本不足,而达不到预期的预测精度。但单一异常值检测方法难以检测所有类型的异常值,多项方法组合能够取得更好的结果1 0。填补缺失值一般采用均值填充、插值法和线性回归等方法1 1。现有风电功率预测模型一般将历史功
12、率作为输入,来预测未来风电出力;鉴于气象因素对新能源发电影响较大,许多学者将气象数据作为多特征输入,剖析多特征变量与功率之间的相关性1 2。目前,R NN、L S TM、G RU等神经网络模型具有非线性处理能力强、能够挖掘时序特征,因此常用于风电预测领域1 31 4。本文考虑到风电数据存在较多的异常数据,以及结合自注意力机制和深度神经网络在时序问题上优秀的学习能力,提出基于D B S C ANO I VR F、N L、C o n v L S TM算法结合的短期风电功率多步预测模型。1 相关理论基础1.1 D B S C A N聚类算法D B S C AN是一种基于密度的聚类算法,不需要规定聚类
13、数量1 5。D B S C AN算法具有2个重要参数,分别是邻域和邻域内最少样本数s;给定一个样本集Z,该算法定义如下。a.邻域。以点p为中心,半径为的圆形区域内点的集合。N(p)=qZ|d(p,q)(1)d(p,q)为点p与点q之间的距离;N(p)为与点p距离小于等于的点的集合。b.核心点。pZ,p的邻域内的点数大于等于s,则称p为核心点。N(p)s(2)c.密度直达。对于集合Z,若点q在p的邻域内,且p为核心点,则称q从p出发密度直达,反之不成立。d.密度可达。对于集合Z,假设有一连串样本点p1,p2,pi,pn,p=p1,q=pn,若pi从pi-1出发是密度直达的,则对象q从对象p出发密
14、度可达。e.密度相连。对于集合Z,存在一点o,若点o到点p和点q都是密度可达的,则p和q密度相连。f.簇。对于一个非空集合C属于Z,满足如下条件时被称作一个簇:pZ,若pC且q从p出发密度可达,则qC。p,qC,p和q是密度相连的。g.噪声。在集合Z中不属于任何一个簇的点定义为噪声。如图1所示,x1是核心点;x2由x1密度直达;x3由x1密度可达;x3与x4密度相连。?x1x2x3x4r?:rs 4图1 D B S C AN原理1.2 最优组内方差法最优组内方差法(o p t i m a l i n t e r c l a s sv a r i a n c e,O I V)是一种能够快速有效地
15、识别风机正常发电数据和发电偏低数据的异常值检测算法1 6。定义:给定的功率曲线集合为U,设目标集合为V=Vn,V1,其中,Vn表示风机正常发电数据集,V1表示机组发电量偏低的数据集,即异常数据。功率曲线集U=(x1,y1),(x2,y2),(xn,yn),满足yiyi-1,i(2,n),x为风速,y为功率,n为集合数据总数。对按间隔T划分的不同风速区间t=1,2,W内,通过O I V算法即式(3)所示,求解方差突变点位置来区分正常和异常数据集。=a r gm a xn=21j=1(yj-y)2S(3)yj为第j个点的功率;y为第1个点到第个点41吴平雄等:基于组合数据清洗与N L C o n
16、v L S TM模型的多步风电功率预测 研究与设计的平均值;S为初始方差阈值。按式(3)可将第t个风速区间的数据集划分为:Un(t)=(xi,yi)|(xi,yi)U(t),1i(4)U1(t)=(xi,yi)|(xi,yi)U(t),in(5)Un(t)为第t个风速区间的正常数据集;U1(t)为第t个风速区间的异常数据集。对2类数据集进行汇总,得到目标集合Vn、V1为:Vn=Un(1),Un(2),Un(W)(6)V1=U1(1),U1(2),U1(W)(7)1.3 随机森林算法随机森林(r a n d o mf o r e s t,R F)是以决策树为基本单元,结合B a g g i n g(b o o t s t r a pa g g r e g a t i n g)方法和随机特征选择的集成学习方法1 7。R F训练、预测流程如图2所示,其具体步骤如下:a.在给定训练集T的N个样本中随机有放回地采样,得到k个子训练集Ti。b.每棵决策树输入子训练集并从M个特征中随机选择m个特征子集作为分裂特征集,在分裂特征集中以最优分裂方式分裂生成决策树。c.重复前2个步骤,生成k棵决策树的随机