1、2023 年4 月 电 工 技 术 学 报 Vol.38 No.8 第 38 卷第 8 期 TRANSACTIONS OF CHINA ELECTROTECHNICAL SOCIETY Apr.2023 DOI:10.19595/ki.1000-6753.tces.220104 基于多级二阶注意力孪生网络的 小样本 GIS 局部放电诊断方法 王艳新 闫 静 王建华 耿英三(电力设备电气绝缘国家重点实验室(西安交通大学)西安 710049)摘要 以数据驱动的智能故障诊断方法近年来取得了突飞猛进的发展,然而受现场复杂工况和小样本条件的制约,训练高精度、高鲁棒的气体绝缘组合电器(GIS)局部放电诊断
2、模型仍然是一个挑战。为此,该文提出一种新颖的孪生网络用于小样本 GIS 局部放电诊断,其主要由两个相同结构、参数的特征提取器和一个度量学习器组成。在特征提取器设计中,引入多尺度卷积来挖掘局部放电信号中更全面的特征信息。同时引入二阶注意力模块以有效利用不同通道之间的相关信息,提取具有鉴别性和代表性的特征,增强模型的特征提取能力。度量学习器用来对度量特征的相似度进行判断,依此来比较和匹配目标任务下的样本来实现 GIS 局部放电诊断。实验结果表明,所提出的多级二阶注意力孪生网络在每类支撑集数量为 5 时便可达到 93.76%的诊断精度,相比于其他方法而言优势明显,同时对非平衡样本具有很强的容错性,为
3、现场小样本 GIS 局部放电高精度、高鲁棒诊断提供了解决思路。关键词:孪生网络 多尺度卷积 二阶注意力模块 小样本 GIS 局部放电 中图分类号:TM835 0 引言 监测和诊断气体绝缘组合电器(Gas-Insulated Switchgear,GIS)中的局部放电(Partial Discharge,PD)现象是对其绝缘状态进行评估的有效手段1。随着人工智能技术的快速发展,数据驱动的诊断方法在 GIS 局部放电诊断上表现出优异的性能2,深度学习方法由于能够自动学习 GIS 局部放电(PD)信号与故障类型间的非线性关系而取得了更为显著的效果3-5。然而,现有深度学习方法都是在海量数据的前提下训
4、练的,当数据量减少时模型性能下降严重。对于现场运行的 GIS 而言,一方面故障概率相对较低,另一方面运行状态变化较小,为此只能获得典型缺陷下的小样本数据集。因此,如何实现小样本下的 GIS 局部放电诊断成为亟待解决的问题。虽然迁移学习方法能够将海量源域数据下学习到的诊断知识应用于小样本目标域,但是目前大多数迁移学习方法都是基于深度结构的,依赖足够的源域样本和训练过程,导致其现场应用受到掣肘6-7。元学习作为一种针对小样本及新任务快速适应的学习方法,是解决小样本分类问题的有效手段8-9。元学习侧重于如何获得学习能力而不是学习本身,因此只需简单的调整即可适应实际工业场景中的新任务。基于度量的元学习
5、模型通过学习一个统一的、与类别无关的距离特征空间,能够实现小样本下的快速分类10-11。孪生网络作为一种典型的度量元学习方法,不仅结构简单且泛化能力强,在小样本变压器诊断12和数据匮乏下的窃电检测13等领域取得了优异的效果。受启发于基于度量元学习的孪生网络,本文提出了一种新颖的孪生网络用于小样本 GIS 局部放电诊断。为尽可能地学习广义表示并避免过拟合,构建了多级二阶注意力卷积网络作为孪生网络的特征提取器,从而挖掘出局部放电数据中更全面的特征信息并提取具有鉴别性和代表性的特征。采用欧几里德距离作为度量学习器对度量特征的相似度进行 国家电网有限公司科技资助项目(5500-202199527A-0
6、-5-ZN)。收稿日期 2022-01-19 改稿日期 2022-04-15 2256 电 工 技 术 学 报 2023 年 4 月 学习,实现小样本下 GIS 局部放电诊断。在样本受限的条件下,基于孪生网络的诊断模型能够准确、鲁棒地对 GIS 局部放电进行分类诊断。1 多级二阶注意力孪生网络 1.1 孪生网络 孪生网络作为一种判别性学习方法,可用于验证和识别在训练过程中类别数量非常多以及单个类别训练样本非常少的任务14,实现小样本 GIS 局部放电高精度、高鲁棒诊断。孪生网络的结构如图 1所示,主要由两个具有相同结构和参数的特征提取器和一个度量学习器组成。在训练过程中,特征提取器从局部放电样
7、本对中学习相似性度量。度量学习器通过在目标空间中建立简单距离函数来近似输入空间中的语义距离,从而使用相似性度量来比较或匹配目标任务下的样本以实现 GIS 局部放电诊断。对每一个特征提取器,由参数加权的函数G(x)完全相同,它们学习两个输入以获得对称相似性度量。当样本对(x1,x2)来自同一类别时,相似性度量 E(x1,x2)较小,否则较大。本文选择欧几里德距离作为度量学习器,其计算过程如下 212122(,)()()Ex xGxGx=-(1)图 1 孪生网络的结构 Fig.1 The structure of the siamese network 因此,在训练和测试过程中,损失函数必须使相似
8、样本之间的距离最小,异质样本之间的距离最大,以保证最终概率向量中存在大尺寸分布趋势。孪生网络作为一种小样本学习方法,其训练和测试过程严格按照 A-way K-shot15的形式进行。对于训练集(本文指代源域数据集),通过构建多个任务并在每个任务中随机选择 A 类,每类 K 个样本,以此作为支撑集实现模型训练。对于测试集(本文指代目标域数据集),同样选择 A 类样本,每类 K 个样本,以此作为支撑集并将剩余样本作为查询集进行模型测试。通过 A-way K-shot 方式,不仅赋予了模型学习的能力,且通过微调即可将学习到的元知识迁移到新的任务下,实现 GIS 局部放电高精度、鲁棒诊断。本文以交叉熵
9、16作为损失函数来实现整个网络的训练,其计算过程如下。11(,)lg(1)lg(1)AiiiiiLbypypA=-+-(2)式中,L(.)为损失函数;和 b 分别为网络的权重和偏差;yi和pi分别为期望和预测概率。1.2 多级二阶注意力卷积网络 孪生网络中特征提取器的好坏将直接影响小样本下 GIS 局部放电诊断的性能。考虑到小样本 GIS局部放电诊断要求特征提取器在尽可能学习广义表示的同时避免过拟合,为此构建了四个卷积层嵌入的卷积神经网络作为特征提取器。目前大量的研究表明,对卷积神经网络进行二阶统计有助于增强其特征表示能力17。为此,本文加入注意力机制17来提取二阶注意力特征,构建了多级二阶注
10、意力卷积网络。通过在池化层后面添加二阶注意力模块来自适应地重新缩放通道特征,能够实现更强大的表征学习。1.2.1 多尺度卷积模块 针对单一尺度卷积难以完全挖掘出样本特征信息的问题,本文构造了多尺度卷积模块来捕获 GIS局部放电特征,多尺度卷积模块如图 2 所示。该模块由 3 个卷积和 1 个池化共 4 个并行操作组成:3个卷积的卷积核尺寸分别为 5、7 和 9;作为第 4 个尺度,最大池化操作保留了原始信号的下采样表示。在每个卷积之前和池化之后分别引入一个卷积核大小为 1 的卷积层,主要有以下两个目的:可以结合非线性激活函数来增加网络的非线性表达能力,同时保持原始输入的规模不变;起到了降低通道
11、 图 2 多尺度卷积模块 Fig.2 Multi-scale convolution module 第 38 卷第 8 期 王艳新等 基于多级二阶注意力孪生网络的小样本 GIS 局部放电诊断方法 2257 维数,进一步减少网络参数的作用。然后将提取的N 个尺度的特征序列融合到通道维度中,表示为 12 Nfff=F (3)式中,f1fN为不同尺度下提取的特征序列,本文设置 N=4;F为融合后的特征序列。1.2.2 二阶注意力模块 考虑到二阶统计有助于增强卷积神经网络的特征表示能力,本文引入了二阶注意力模块来聚合特征内部或特征之间的二阶统计量18。二阶注意力模块能够有效利用不同通道之间的相关信息,
12、从而提取具有鉴别性和代表性的特征。本文所采用的二阶注意力模块如图 3 所示。图 3 二阶注意力模块 Fig.3 Second-order attention module 如图 3 所示,二阶特征统计用于自适应地学习特征之间的依赖关系以重新调整通道特征。对于给定的一个 CHW 特征图 F=f1 f2 fC,特征图 C 的大小为 HW。将特征图重新建模为特征矩阵 X,样本协方差矩阵 为 T=XIX (4)式中,11sss=|-IeI,s=WH 为特征维度,se为ss 阶的单位矩阵,I为 ss 阶的全 1 矩阵(矩阵中各元素均为 1)。考虑到协方差归一化能够增强卷积神经网络的表示能力,本文通过特征
13、分解将通道协方差矩阵分解为 T=UU (5)式中,U 为正交矩阵;为特征值的非递增顺序的对角矩阵,=diag(1,2,C)。为了对协方差进行归一化,本文采用如式(6)所示的计算公式计算矩阵幂。T=YUU (6)式中,为正实数,()12=diag,C,;Y为通道描述符。归一化协方差矩阵可以看作是信道描述符,描 述了信道特征之间的相关性。假设=Y12 Cyyy,可以通过减少Y得到信道方向统计量 z,zRC1。因此 z 的第 C 维可计算为 GCP11()()CCCCizHyyiC=(7)式中,HGCP(.)为全局协方差池化函数;yC为通道描述符的一个分量;zC是关于 C 的统计量。不同于一阶池化,
14、全局协方差池化能够捕获更准确的统计数据特征。为了通过全局协方差池化来利用聚合信息,本文采用门控机制来捕捉通道间依赖。为此本文使用一个带有 sigmoid 函数的简单门控机制17,表示为()attUD(;)sigmoidReLu()sFz WWW z=(8)式中,WU和 WD为卷积层的权重集;s 为通道注意力尺度;ReLu()为激活函数。接着用 s 重新缩放输入,最终输出为 iiifs f=(9)1.2.3 多级二阶注意力卷积网络结构 本文所构建的多级二阶注意力卷积网络结构如图 4 所示。通过两个多尺度卷积模块自动提取 GIS局部放电的多尺度特征,学习更丰富、更有效的特征集。后续两个传统单一尺度
15、卷积模块对多尺度特征进行特征提取,去除多尺度特征的冗余信息。本文在每个卷积层后面设计了一个二阶注意力模块来捕捉信道内部的相关性,自适应地重新缩放通道特 图 4 多级二阶注意力卷积网络结构 Fig.4 Multi-level second-order attention convolutional network structure 2258 电 工 技 术 学 报 2023 年 4 月 征,以实现更强大的表征学习。在多尺度卷积模块后设置一个 Dropout 层18,dropout 率为 0.5,防止网络过拟合。同时每一卷积块后增加一个批归一化19(Batch Normalization,BN)
16、帮助网络训练。1.3 多级二阶注意力孪生网络 GIS 局部放电诊断流程 在整个 GIS 局部放电诊断模型中,两个共享权重的多级二阶注意力卷积网络被用作特征提取器并和一个距离度量学习器共同构成了孪生网络。本文所构建的多级二阶注意力孪生网络结构和诊断流程如图 5 所示。具体流程如下:图 5 多级二阶注意力孪生网络结构和诊断流程 Fig.5 Multi-level second-order attention siamese network structure and diagnosis process(1)数据集构建与划分。构建源域和目标域数据集,并随机选取 A-way K-shot 的支撑集 S 和查询集 Q。源域数据集中的支撑集用于训练故障分类模型,查询集用于评估模型的性能。目标域在划分一个支撑集后,其余样本全部作为查询集。(2)模型的建立和训练。首先构建如图 1 所示的多级二阶注意力孪生网络。然后,将源域数据集下每次提取的数据输入网络进行训练。经过 M 次训练,学习到能够实现小样本 GIS 局部放电诊断的满意模型,并将模型中的参数固定。(3)故障样本测试。将目标域数据集中的支撑集和查