不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别

资源描述

1、第卷第期计算机集成制造系统年月：收稿日期：；修订日期：。；基金项目：国家自然科学基金资助项目（，）；河南省重点研发与推广专项（科技攻关）资助项目（，）。：，（，），（，）不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别张玉彦，张永奇，孙春亚，王昊琪，文笑雨，乔东平，闫新宇，李浩（郑州轻工业大学河南省机械装备智能制造重点实验室，河南郑州）摘要：针对风机叶片开裂状态样本少、识别率低的问题，提出基于生成式对抗网络（）的开裂状态样本增强方法来提高识别率。以经验风险分类模型为对象，从理论角度对不平衡样本问题进行深入分析，设计了满足开裂样本

2、生成与判别的网络模型，引入批量归一化保障特征服从标准正态分布，加速网络训练过程收敛。以神经网络为分类器，以值、为度量指标，在个基准数据集上对所提方法进行测试，结果表明增强后的结果更好。真实实验表明，以逻辑回归及神经网络为分类器，相比原始不平衡样本，增强后的结果分别提升，。与算法对比，以上两种分类器的分类准确率分别提高和；与算法对比，分类准确率分别提高和。关键词：不平衡样本；风机叶片；样本增强；生成式对抗网络；开裂识别中图分类号：；文献标识码：，（，）：，（），：；第期张玉彦等：不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别引言随着“双碳”目标的推进，我国对清洁能源的需

3、求不断增加，风电作为一种绿色非化石能源，得到了广泛开发利用。据统计，“十三五”期间，我国风电年新增装机容量达到万千瓦，成为继火电、水电后的第三大电力来源，占全部发电量的。作为风机的关键部件，叶片起将风能转化为电能的作用，其健康状态非常重要。据统计，某风场运行年，停机超过天及以上的机组失效事故中，因叶片开裂导致的事故占总数的，且多发生在盛风期间。因此，如何监测叶片的健康状态，特别在裂纹初期快速准确地识别叶片开裂状态，受到了大量关注。现有研究采用的方法主要有振动信号分析、红外成像检测及声发射识别等。李大冰等将风机叶片振动信号作为研究对象，利用小波分解方法进行信号分析；刘晓波等利用小波包分析方法

4、对采集的实时信号进行五层小波包分解，并对风机叶片进行状态监测和实时数据分析，同时对采样数据进行故障特征提取。针对数据采集与监视控制系统（，）采集存在数据冗余，难以判别叶片健康状态的问题，陈维刚等提出一种将随机森林算法与轻量的梯度提升机（，）算法结合的模型对叶片健康状态进行分类和预测；曹可乐等通过比较逻辑回归与极端梯度提升（，）集成学习算法，发现集成学习算法能更精准地预测风机叶片开裂的状态。由于工况不同带来的数据占比不平衡，等提出一种改进的过采样平衡算法来优化数据集，然后通过改进的最近邻（，）分类方法对风电机组叶片进行故障诊断；杨娜采用过采样与欠采样相结合的方法处理数据不平衡问题，建立小波

5、去噪与长短期记忆（，）神经网络模型评测模型对叶片结冰情况进行分析；叶春霖等采用方法和合成少数类过采样（，）算法的过采样技术进行数据清洗与增强，提高了故障分类的准确性。以上对风机叶片开裂状态的监测方法，多基于叶片开裂状态样本充足、样本数量均衡的假设，然而实际应用中，风机正常工作的数据集一定远大于故障数据集，呈现为样本分布不平衡，导致机器学习效率低、故障诊断准确率低等问题。传统的过采样与重采样技术解决样本不平衡问题仍具有一定的局限性，例如过采样容易导致新样本过度拟合，欠采样易丢失信息。针对以上问题，本文提出一种基于生成式对抗网络（，）的风机叶片开裂

6、状态识别方法。该方法立足叶片开裂状态的真实样本，利用算法中的生成器模型生成服从真实样本分布的虚拟开裂样本，从而增加样本数量；利用判别器模型输出的分类误差分别训练生成器和判别器模型，调整生成数据集的概率分布，最后达到生成的数据集接近故障数据集的目的。本文研究的贡献主要为解决样本不平衡问题和提高故障诊断预测准确率。不平衡样本问题分析及研究动机不平衡样本表现为不同类别下的样本量具有差异，以二分类问题为例，数量多的类别为多数类，反之为少数类。风机叶片状态数据具有明显的不平衡特点，主要原因是禁止带病作业，采集的风机叶片数据多处于正常状态，开裂状态的数据极少。若直接对此类样本进行分析，分类模型将偏向于正

7、常样本，出现整体分类准确率高、开裂识别率低的情况。具体分析如下：以经验风险最小化分类模型为例（如神经网络、逻辑回归等），通过最小化二元交叉熵目标函数（如式（），实现预测的概率分布与实际的概率分布拟合。（）（）（）。（）将式（）进一步分解为（）（）（）（）（）（）（）（）（）（）（）（）。（）其中：为多数类样本的个数；为少数类样本的个数。当时，该目标函数约等于多数类计算机集成制造系统第卷样本的损失值，即忽略了针对少数类样本的预测概率值与真实值的分布一致性，导致少数类样本被误识别为正常状态，造成开裂状态的漏报和误报，给风机叶片的安全运行带来隐患。为了提高对不平衡样本分类的准确率，学术界进行了

8、大量研究，现有方法主要分为数据层面方法和算法层面方法。（）数据层面学者们对多数类（少数类）按照规则减少（增加）样本数量（即重采样），以使数据集均衡，主要有欠采样技术、过采样技术和混合采样技术。欠采样技术随机删除多数类样本，然而当删除边界样本时，该方法造成信息丢失，导致分类模型的泛化能力降低；过采样技术随机复制少数类样本，由于重复复制样本，该方法容易导致过度拟合；混合采样技术对两种方法进行组合，但仍然存在上述缺点。（）算法层面通过提升分类器性能并引入新的损失函数提高对不平衡样本分类的准确率，主要算法有代价敏感学习、集成学习和提升算法，该类算法在保障整体准确率的前提下提

9、升小类样本的识别率，但需要复杂的数学推导、精准的算法设计和深层次的数理分析。因此，本文提出基于的风机叶片开裂状态识别方法，通过生成服从少数类样本分布的虚拟样本解决样本不平衡问题，从而避免采样方法带来的问题，同时无需对算法的底层公式进行精准设计，提高了风机叶片状态分类的准确率。生成式对抗网络原理由生成器和判别器两部分组成，具体框架如图所示。生成器不断学习真实数据的概率分布，并将随机噪声向量转化为以假乱真的虚拟样本；判别器作为二分类器，输出数据为真的概率，区分生成的“假”数据与训练集中的“真”数据。假设随机噪声向量为，真实样本为，生成器输出为（）；判

10、别器进行判断，得到（）和（）。目标函数（，）表示为（，）（）（）（）（）。（）对于判别器，期望（），（），即（，）最大，记作；对于生成器，期望（），即（，）最小，记作。训练判别器时，将与（）输入其中，判别器对两者进行分类，计算误差并更新参数。以神经网络判别器为例，参数更新如下：（，）；（，）。（）式中：和为判别器的参数；为学习率。由于，采用随机梯度上升的方法优化目标。训练生成器时，从随机噪声向量中合成虚拟样本（），判别器对和（）分类，计算误差并以反向传播的方式更新生成器训练参数，具体如下：（，）；（，）。（）式中：和为

11、生成器的参数；为学习率。基于生成式对抗网络的开裂状态样本增强方法基于的叶片开裂状态样本增强过程如图所示。将叶片开裂状态样本集作为真实样本，生成器根据随机噪声向量（服从标准正态分布）生成叶片开裂状态虚拟样本（）；判别器对和（）分类，计算误差并用式（）和式（）分别迭代训练判别器和生成器。整个算法中主要包括生成器网络模型和判别器网络模型两部分，网络结构如表所示。生第期张玉彦等：不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别成器是一个具有层隐藏层的神经网络，隐藏层中使用激活函数，如式（）所示。函数保留负轴中的数据，其导函数大于，能够有效避免训练过程中梯度消失造成的神经元“死亡”现象。（，

12、）（，）。（）式中是一个值为的常数。表生成器与判别器网络结构表网络生成器网络结构输入层激活函数批量归一化隐藏层激活函数批量归一化隐藏层激活函数输出层神经元函数参数真实样本维度判别器网络输入层激活函数隐藏层激活函数输出层前向计算过程中，特征值分布会逐渐向激活函数的饱和区间靠近，导致梯度消失。因此，在隐藏层之间增加批量归一化（，）处理，保证神经元的值服从标准正态分布，避免梯度消失，实现快速收敛。层的向前传导表示如下：；（）；?；?。（）式中：为均值；为方差；为批量样本的大小；是一个值为的常数，?表示集合中的样本转为均值和方差的标准样本；，为可学习参数。在输出层使用激活函数，表示为（）。

13、（）判别器网络是单隐藏层的神经网络，输出层使用激活函数，确保输出值介于之间，使用二元交叉熵度量二分类预测概率与实际概率之间的差异，采用式（）优化网络权重。不平衡样本下基于的风机叶片开裂状态识别流程如图所示，详细步骤如下：（）在风机叶片数据集中随机选取小批量开裂状态数据集作为真实样本，将生成器随机生成的数据集作为虚拟样本，两者共同作为训练样本集。（）固定生成器参数，用真实样本与虚拟样本训练判别器。（）固定判别器参数，再训练生成器。（）重复上述过程直至最大训练次数，输出风机叶片平衡数据集。（）用分类器对叶片平衡数据集进行故障诊断，识别风机叶片开裂状态。图所示为

14、拟合二元正态分布的例子，随机噪声为维向量，每个维度独立且服从一维标准正态分布。其中，黑色等高线为真实样本分布（服从二元正态分布），随着迭代次数的增加，逐渐向真实样本分布位置趋近的等高线为虚拟样本分布。可见虚拟样本分布逐渐接近真实样本分布，当迭代次数达到时，虚拟样本分布与真实样本分布几乎相同，即根据虚计算机集成制造系统第卷拟样本概率分布采样得到的样本可以作为真实样本使用。通用不平衡数据集实验结果与分析数据集描述首先，在通

15、用不平衡样本集上进行实验，通用不平衡样本集来自（：），具体如表所示。该不平衡样本集含有种类别，共组数据，属性数量在之间，不平衡比例最低为，最高为。需要特别说明的是：这些数据并非来自风机叶片开裂领域，因为本文提出的基于算法具有通用性，数据集作为基准数据集，被广泛用于测试各种不平衡学习方法，所以可以将该数据集作为测试数据。实验采用的数据分析软件为，。表数据集序号数据集多数类少数类属性数量不平衡比例（多数类少数类）第期张玉彦等：不平衡样本下基于生成式

16、对抗网络的风机叶片开裂状态识别续表以表中数据为例，多数类记为，少数类记为，则两类间的不平衡量。（）式中表示需要生成器生成的虚拟样本数量。实验结果与分析通过算法生成个虚拟样本，再用折交叉验证进行实验，交叉验证通过多次划分降低了一次随机划分带来的偶然性，同时提高了数据的使用率及泛化能力，模型准确率较高。为了验证算法解决样本不平衡问题的有效性，采用精确率（）、召回率（）和值为度量指标：（）；（）；（）。（）式中：为精确率；为召回率；为精确率和召回率的调和均值。在二分类问题中，代表真阳性，预测和标签均为真；代表假阳性，标签为假，预测为真；代表假阴性，标签为真，预测为假；代表真阴性，标签和预测均为假。分类结果分布如表所示。表分类结果分布实际标签预测结果阳性阴性阳性阴性分别在平衡前（原始数据）和平衡后（增强）对组数据进行实验，实验结果表所示。比较表中的，均值，平衡前在组数据上的均值为，平衡后的均值为，发现在平衡后数据上的测试结果大于平衡前，说明分类准确率得到提高。作为精确率和召回率的调和平均数，可以对和做出整体评价，选择将其作为最终测评的参数。采用该指标进行深入

展开阅读全文

不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别_张玉彦.pdf