1、电工材料 2023 No.1陈铁等:基于深度强化学习的变电站倒闸操作序列生成方法基于深度强化学习的变电站倒闸操作序列生成方法陈铁1,2,曹颖1,2,蔡东阁1,2,何思敏1,2(1.三峡大学 电气与新能源学院,湖北宜昌 443002;2.三峡大学 梯级水电站运行与控制湖北省重点实验室,湖北宜昌 443002)摘要:针对当前智能电网操作票系统通用性差、智能化程度不足等问题,提出一种基于深度强化学习的变电站倒闸操作序列生成方法。首先,采用知识图谱技术建立变电站知识图谱模型,利用知识图谱路径搜索确定操作空间,结合变电站运行规则对任务设备运行状态进行推理更新;然后,构建求解倒闸操作序列的强化学习模型;最
2、后,应用DDQN深度强化学习算法求解倒闸操作序列。测试结果表明,该方法适用于不同的操作任务,能够根据操作任务自动生成符合倒闸操作逻辑的操作序列,无需建立复杂的规则库,通用性较强。关键词:深度强化学习;倒闸操作序列;操作票;知识图谱中图分类号:TM734 DOI:10.16786/ki.1671-8887.eem.2023.01.019Generation Method of Switching Operation Sequence in Substation Based on Deep Reinforcement LearningCHEN Tie1,2,CAO Ying1,2,CAI Dong
3、ge1,2,HE Simin1,2(1.College of Electrical Engineering and New Energy,China Three Gorges University,Hubei Yichang 443002,China;2.Hubei Provincial Key Laboratory for Operation and Control of Cascaded Hydropower Station,China Three Gorges University,Hubei Yichang 443002,China)Abstract:In view of the pr
4、oblems such as poor universality and insufficient intelligence of current smart grid operation ticket system,a substation switching operation sequence generation method based on deep reinforcement learning is presented.Firstly,the knowledge map model of substation is established by using knowledge m
5、ap technology,the operation space is determined by knowledge map path search,and the operation status of task equipment is inferred and updated with substation operation rules.Then,an intensive learning model is built to solve the sequence of the switching operation.Finally,the DDQN deep reinforceme
6、nt learning algorithm is applied to solve the sequence of the switching operation.The test results show that this method is suitable for different operation tasks,can automatically generate operation sequence according to the operation tasks,does not need to build a complex rule base,and has strong
7、versatility.Key words:deep reinforcement learning;switching operation sequence;operation ticket;knowledge graph引言当前,地方电网接线方式日益复杂,倒闸操作涉及设备众多、操作方式多样化1,对运行人员的专业能力提出更高要求。智能化的变电站操作票系统能够自动识别倒闸操作任务,快速推理出准确的操作顺序2,自动生成准确规范的操作票,辅助运行人员进行倒闸操作,提高运行人员的操作处理能力,降低事故发生概率。根据操作任务形成倒闸操作序列是变电站操作票系统的核心功能。目前我国主要采用图形化界面辅助和专
8、家系统两种方法生成操作序列,智能作者简介:陈铁(1975-),男(汉族),湖北宜昌人,副教授,研究方向为电力变压器运行状态预测与故障诊断、人工智能等。收稿日期:2022-11-1378电工材料 2023 No.1陈铁等:基于深度强化学习的变电站倒闸操作序列生成方法化程度均有所不足。图形界面辅助方法3-5通过人工在图形化界面进行模拟操作,形成符合倒闸操作规则的操作序列,此类方法依赖于运行人员的经验,智能化程度不高。专家系统方法6-9利用框架式、产生式规则、面向对象等技术建立知识库,结合推理机推理出操作序列,此类方法知识库的建立和维护费时费力,当变电站接线方式和设备配置发生变化时,需要对知识库进行
9、调整。倒闸操作过程的实质是动作决策过程,利用强化学习的自适应优化机制,可以自行推理操作序列10。此外不同的操作任务具有不同的操作对象、范围及倒闸原则,如果能够根据任务自动构建出与任务相匹配的强化学习模型,再利用强化学习算法求解,就可以在只使用倒闸操作基本原则的基础上自动推理出操作序列。基于此,提出一种智能倒闸操作序列推理方法。首先,采用Neo4j平台建立变电站知识图谱模型,通过知识图谱路径搜索确定当前任务的操作范围,结合状态更新规则更新任务设备运行状态;然后,构建与任务相关的深度强化学习模型;最后,利用DDQN(double deep Q-network)算法与变电站图模型进行实时交互,控制操
10、作空间中的断路器、隔离开关和接地刀闸的分合,不断迭代优化操作序列。1基于Neo4j的变电站图模型构建Neo4j是一个高性能的图数据库,内置A*、Dijkstra等最路径搜索算法11,其数据模型由节点和关系两种数据类型组成,节点表示设备实体,关系表示两个设备间的关联。设备属性和关系属性以键值对的形式存储在节点和关系中,并用标签划分不同类型的节点和关系。本研究利用Neo4j平台建立变电站图模型,将变电站设备作为图模型中的实体,设备间的关联表示为图模型中的关系。由于变电站拓扑数据一般存储在关系型数据库中,需要将关系模型映射为三元组G=(E1,R,E2)形式的图模型,其中,E1为头实体,E2为尾实体,
11、R为关系,然后存储到Neo4j图数据库中,映射过程如图1所示。2操作空间生成和运行状态更新典型的操作任务常用三类数据描述:(1)任务设备即操作任务的对象,一般为线路、母线、变压器等类型的设备,如:500 kVXX变电站1号主变;(2)初始状态,由与任务设备相关的所有可操作设备的初始状态组成,如:301断路器:分,3016隔离开关:合,;(3)目标状态,由与任务设备相关的所有可操作设备的目标状态组成。倒闸操作的目标是将任务设备状态由初始状态转换到目标状态,状态转换主要通过分合与任务设备相关的开关、刀闸来实现。因此,操作空间可由能够切换任务设备状态的开关刀闸组成。为使获取操作空间的方法适用于不同类
12、型的任务设备和主接线,采用基于间隔树获取可操作设备的思想12,同时结合 Neo4j的路径搜索算法获取任务设备的操作空间。具体实施方式为:以任务设备节点为起点,沿着相连关系遍历,直至标签为变压器、母线或线路的节点,得到任务设备相关路径。相关路径中断路器、隔离开关以及与任务设备直接相连的接地刀闸构成任务设备的操作空间。某变电站1号主变操作空间搜索结果如图2所示。断路器、隔离开关、接地刀闸的分合状态会引起任务设备的运行状态变化,其变化与路径、间隔、开关刀闸的状态存在一定的关联关系,如图3所示。可按照表1所示运行状态更新规则,在已知操作空间中开关刀闸分合状态情况下逐步更新得到任务设备的运行状态。3求解
13、倒闸操作序列的强化学习模型强化学习智能体通过不断试错的方式进行学习,利用与环境交互获得的奖励指导动作行为,优化动作策略。将变电站知识图谱作为强化学习环境,给定操作任务后,在t时刻,智能体根据当前任务设备状态st选择并执行动作at,环境状态发生变化,智能体获得即时奖励rt。强化学习的目标为最大化累计奖励值,从而找到最优动作策略13。求解倒闸操作序列的强化学习模型如图4所示。3.1状态空间S状态空间应选取对动作决策产生影响的因素。对于倒闸操作问题,任务设备的运行状态和操作空间中开关刀闸的分合状态反映了任务的完成情况,图1关系模型-图模型映射过程79电工材料 2023 No.1陈铁等:基于深度强化学
14、习的变电站倒闸操作序列生成方法可作为动作决策的重要依据。因此强化学习的状态空间S可定义为:S=Sd,X(1)式中:Sd为任务设备的运行状态;X为操作空间内开图21号主变操作空间搜索结果表1路径、任务设备和间隔的运行状态更新规则任务设备路径间隔运行状态运行热备用冷备用检修劣状态过渡状态运行热备用冷备用劣状态运行热备用冷备用劣状态过渡状态更新规则所有路径状态都为运行状态,与任务设备直接相连的接地刀闸在分位所有路径状态都为热备用状态,与任务设备直接相连的接地刀闸在分位所有路径状态都为冷备用状态,与任务设备直接相连的接地刀闸在分位所有路径状态都为冷备用状态,与任务设备直接相连的接地刀闸在合位1)存在路
15、径状态为劣状态;2)任务设备为运行或热备用状态,与任务设备直接相连的接地刀闸在合位任务设备的运行状态不属于运行、热备用、冷备用、劣状态四种状态路径中所有间隔状态都为运行状态路径中所有间隔状态都为热备用状态路径中所有间隔状态都为冷备用状态路径中存在间隔状态为劣状态间隔内所有断路器和隔离开关都在合位在运行状态基础上,所有断路器在分位在冷备用基础上,所有隔离开关在分位间隔内有断路器在合位的情况下,存在隔离开关在分位间隔的运行状态不属于运行、热备用、冷备用、劣状态四种状态图3可操作设备-间隔-路径-任务设备之间的状态关系图4求解倒闸操作序列的强化学习模型80电工材料 2023 No.1陈铁等:基于深度
16、强化学习的变电站倒闸操作序列生成方法关刀闸的分合状态。3.2动作空间A完整的倒闸操作一般由一系列断路器、隔离开关和接地刀闸的分合动作构成。由于变电站设备众多,而任务设备的状态只与部分开关刀闸的分合状态有关,为防止动作空间过大导致算法难以收敛,可选取任务设备操作空间中的设备构成强化学习动作空间。因此动作空间A可定义为:A=0,1,n(2)式中:动作值n表示对操作空间中的第n个开关或刀闸进行变位操作。3.3奖励函数R倒闸操作过程中开关刀闸的动作顺序应符合倒闸操作逻辑,不能出现危及人员和设备安全的误操作。因此在评估任务设备状态好坏前,应首先判断选择的动作是否违反倒闸操作规则,以免发生误操作。故将奖励函数分为奖励部分和惩罚部分,用于评价智能体动作的好坏。3.3.1奖励部分倒闸操作的目标是通过分合开关刀闸将任务设备运行状态转换到目标运行状态,任务设备运行状态越接近目标运行状态奖励值越大。因此Na次动作累计获得的任务设备状态奖励值Rs可定义为:Rs=(V(sa)-V(si)t=1Na(V(st+1)-V(si)(3)式中:为大于0的常数;V(sa)、V(si)、V(st+1)分别为任务设备目标运行