ImageVerifierCode 换一换
格式:PDF , 页数:6 ,大小:393.33KB ,
资源ID:2372543      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2372543.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于深度强化学习的切机控制策略研究_卢恒光.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

基于深度强化学习的切机控制策略研究_卢恒光.pdf

1、研究与分析电器与能效管理技术(2023No 3)卢恒光(1969),男,高级工程师,主要从事电力安全生产工作。林碧琳(1997),女,硕士研究生,研究方向为基于强化学习的暂态稳定切机控制。温步瀛(1967),男,教授,博士,研究方向为电力系统优化运行和风电并网技术。*基金项目:福建省自然科学基金项目(2022J01113)基于深度强化学习的切机控制策略研究*卢恒光1,林碧琳2,温步瀛2(1 福建华电万安能源有限公司,福建 龙岩364000;2 福州大学 电气工程与自动化学院,福建 福州350116)摘要:电力系统受到大扰动后会进入紧急运行状态,必须及时采取紧急控制措施使系统恢复稳定运行。切机控

2、制是维护系统稳定最有效且最常用的控制措施。针对传统基于策略表的控制方法在实际应用中存在故障不匹配的问题,提出了一种基于深度强化学习的电力系统暂态稳定切机控制决策方法。首先,引入深度确定性策略梯度(DDPG)算法,结合等面积定则,对算法各要素重新设计。其次,建立基于 DDPG 算法的切机控制决策模型。最后,利用 PSA-BPA 软件和 Pycharm 软件搭建单机 无穷大系统和 IEEE39 节点系统切机控制仿真模型,通过算例验证了所提方法的有效性。关键词:暂态稳定;切机控制;深度强化学习;深度确定性策略梯度中图分类号:TM712文献标志码:A文章编号:2095-8188(2023)03-001

3、1-05DOI:10 16628/j cnki 2095-8188 2023 03 002esearch on Generator Tripping Control Strategy Based onDeep einforcement LearningLU Hengguang1,LIN Bilin2,WEN Buying2(1 Fujian Huadian Wan an Energy Co,Ltd,Longyan 364000,China;2 School of Electrical Engineering and Automation,Fuzhou University,Fuzhou 350

4、116,China)Abstract:The power system will enter an emergency state after being greatly disturbed The emergency controlmeasures must be taken in time to restore the system to stable operation Generator tripping control is the mosteffective and common control measure to maintain system stability Aiming

5、 at the problem of fault mismatch inpractical application of the traditional control method based on cure table,a decision method of power systemtransient stability generator tripping control based on deep reinforcement learning is proposed Firstly,the deepdeterministic policy gradient(DDPG)algorith

6、m is introduced Every element of the algorithm is redesigned incombination with the equal area criterion Secondly,the decision model of generator tripping control based on DDPGalgorithm is established Finally,using PSA-BPA and Pycharm software,the generator tripping control simulationmodels of the s

7、ingle machine-infinite system and an IEEE39 node system are established The effectiveness of theproposed method is verified by an exampleKey words:transient stability;generator tripping control;deep reinforcement learning;deepdeterministic policy gradient0引言由于高比例可再生能源渗透、大规模交直流互联电网建设以及电力市场逐渐成熟等原因,现代电

8、力系统运行复杂程度日益增加1-3。电力系统受到大扰动后,如果不能准确地评估系统暂态稳定性和及时实施紧急控制措施,故障将会持续发展,导致系统失去稳定,发生连锁故障甚至解列11电器与能效管理技术(2023No 3)研究与分析崩溃,产生严重的社会危害和经济损失。研究暂态稳定分析技术对维护电力系统稳定运行具有重要意义。近年来,快速发展的人工智能算法借助神经网络的非线性表达能力,依据少量系统运行信息实现 了 快 速 准 确 的 电 力 系 统 暂 态 稳 定 评 估(TSA)4-5。在 TSA 判断系统即将失稳后,切机控制(GTC)是最广泛使用的暂态稳定紧急控制(TSEC)措施6。传统基于策略表的 GT

9、C 通常是基于预想事故集制订的,在实时应用中会面临故障失配的问题。为了解决这个问题,文献 7定义了相对动能的概念,计算系统失稳后的剩余加速面积来确定切机量。文献 8 则通过分析相轨迹的斜率与切机量的数学关系来推导临界切机量。这些基于直接法的 GTC 方法需要较多的系统故障后信息,可能会错过最佳控制时间,稳定控制代价较大。文献 9 在长短时记忆网络预测的动态轨迹上结合扩展等面积法实现快速确定切机量。文献 10建立了随机森林回归模型来预测暂态稳定裕度,从而计算切机灵敏度。基于人工智能法的 GTC 方法虽然仅需要少量信息,但无法直接获得确切的 GTC 操作。深度强化学习算法(DL)近年来广泛应用于电

10、力系统相关研究中11-13。文献 14研究了柔性行动器 评判器在综合能源系统的优化调度问题上的应用。文献 15提出了一种基于 DL的最佳重合闸时间确定方法。但目前,对于应用DL 解决 GTC 问题的相关研究还比较少。在GTC 启动问题上,文献 16 引入了两种典型 DL算法,但仍没有解决最佳切机量问题。文献 17采用了深度 Q 学习算法实现切机量的快速确定,但离散化处理使得结果精度不高。为此,本文提出了一种基于 DL 算法的 GTC决策方法。首先,引入深度确定性策略梯度(DDPG)算法,结合切机控制特性及等面积定则(EAC),对算法的状态、动作和回报函数重新设计。其次,讨论了暂态稳定 GTC

11、过程,在重新设计的 DDPG 算法基础上,建立基于 DL 的 GTC决策模型。最后,通过单机 无穷大系统和IEEE39 节点系统 GTC 仿真算例验证了所提方法的有效性。1DDPG 算法1 1DDPG 算法原理DDPG 算法结构及训练流程图如图 1 所示。由图 1 可知,DDPG 算法含有 4 个神经网络,分别是训练动作网络、目标动作网络、训练评估网络以及目标评估网络,对应网络参数为、Q和 Q。图 1DDPG 算法结构及训练流程图DDPG 算法的训练过程可以描述如下。(1)交互及经验生成:真实动作网络根据输入的环境状态信息 st输出动作 at,环境执行动作后进入到下一状态 st+1并计算动作即

12、时奖励 rt。一次交互就产生一条经验(st,at,rt,st+1),储存到经验回放缓存中。(2)网络训练:多次交互后,从经验回放缓存中采样 mini-batch 条经验进行训练。其中,将状态 st输入到训练动作网络中得到动作(st);将状态 st+1输入到目标动作网络中得到动作(st+1);将该动作和状态 st+1输入到目标评估网 络 中 得 到 估 计 奖 励 Q(st+1,(st+1)Q);将状态 st和动作 at输入到训练评估网络中,得到估计奖励 Q(st,atQ)。因此,训练评价网络可以通过最小化损失函数 L 来调整参数 Q,即L=1Ni ri+Q(si+1,(si+1)Q)21研究与

13、分析电器与能效管理技术(2023No 3)Q(si,aiQ)2(1)式中:N 采样的经验条数;i 第 i 条经验;回报折扣因子。训练动作网络通过采样经验的策略梯度J来调整参数,即J1NiaQ(s,a|Q)|s=si,a=(si)(s|)|si(2)(3)网络更新:定期更新目标动作网络和目标评估网络的参数,即Q Q+(1 )Q+(1 )(3)式中:更新权重因子。(4)重复以上步骤,直至训练动作网络输出的动作能达到预期效果。1 2状态设计发电机转子运动方程可以表示为ddt=ddt=1M(Pm Pe D)(4)式中:发电机功角;角速度;M 发电机转动惯量;Pm 机械功率;Pe 电磁功率;D 阻尼常数

14、。电力系统受到扰动后,电磁功率发生改变,转子上机械功率和电磁功率的平衡被打破,转子开始加速。所有转子失去同步运行,系统发生失稳。因此,发电机功角 、角速度、机械功率 Pm以及电磁功率 Pe与系统稳定性息息相关,本文将以上发电机信息作为 DDPG 算法的状态。另一方面,为了更好地识别故障类型,同时又避免数据冗余,本文的算法状态设计中包含了多个特定时间点的发电机信息。其中包括稳定运行时刻、故障发生时刻、故障清除前一周波、故障清除时刻以及切机控制时刻等 5 个时刻的发电机信息,能够充分地表征故障,帮助智能体识别故障,做出不同决策。综述分析,DDPG 算法的状态可以表示为S=i,i,Pmi,Pei,i

15、=1,2,3,4,5(5)1 3动作设计暂态稳定 GTC 一般包括切机地点的选择和切机量的确定,本文只讨论切机量的确定,因此动作空间取为可切发电机容量。文献 17将切机动作离散化,以 10%为步长制定切机动作,导致结果精度不高,算法泛化能力弱。与现有文献不同,本文将切机控制视为一个 0,1范围内的连续变量,表示可切除发电机容量的百分比。1 4奖励函数设计奖励函数值与 GTC 动作后的系统稳定性紧密相关。因此,本文提出了一种基于 EAC 设计的回报函数。EAC 原理如图 2 所示。图 2EAC 原理图2 中,PI、PII和 PIII分别为故障前、故障中以及故障后的发电机功角曲线。系统在 0处发生

16、故障,在 c处故障清除,阴影 A 为加速面积。而阴影 B 为故障清除后最大加速面积。由于 A B,系统无法恢复稳定,故需要采取 GTC。Pm为切机后的机械功率,阴影 C 为切机带来的减速面积。要使切机后系统恢复稳定,则要求 B+CA。当B+C=A,对应的切机量为临界切机量。此时,转子功角最大运动到 h,Pe=Pm。因此,切机量越接近临界值,转子最大功角处的电磁功率 Pe和机械功率 Pm差值越小。基于两个原则:对使系统恢复稳定的动作设置高回报;对于切机量小的动作设置高回报,以及以上的 EAC 分析,设计了奖励函数。r=100 Pe PmPe 100,稳定情况 lg(a+1101)50,不稳定情况(6)式中:a 智能体动作,即切机量。切机后系统的稳定性则通过判别切机后 1 s31电器与能效管理技术(2023No 3)研究与分析内最大功角差来区分。多机系统可以通过互补群惯量中心 相对运动变换等值为单机无穷大系统,该奖励函数同样适用。2基于 DDPG 算法的 GTC 决策模型基于针对 GTC 问题所设计的 DDPG 算法,本文提出了一种 GTC 决策模型。GTC 决策流程如图 3 所示。图 3

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2