1、第 卷第期计算机集成制造系统 年月 :收稿日期:;修订日期:。;基金项目:国家自 然 科 学 基 金 资 助 项 目(,);河 南 省 重 点 研 发 与 推 广 专 项(科 技 攻 关)资 助 项 目(,)。:,(,),(,)不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别张玉彦,张永奇,孙春亚,王昊琪,文笑雨,乔东平,闫新宇,李浩(郑州轻工业大学 河南省机械装备智能制造重点实验室,河南郑州 )摘要:针对风机叶片开裂状态样本少、识别率低的问题,提出基于生成式对抗网络()的开裂状态样本增强方法来提高识别率。以经验风险分类模型为对象,从理论角度对不平衡样本问题进行深入分析,设计了满足开裂样本
2、生成与判别的 网络模型,引入批量归一化保障特征服从标准正态分布,加速网络训练过程收敛。以神经网络为分类器,以 值、为度量指标,在 个 基准数据集上对所提方法进行测试,结果表明增强后的结果更好。真实实验表明,以逻辑回归及神经网络为分类器,相比原始不平衡样本,增强后的结果分别提升 ,。与 算法对比,以上两种分类器的分类准确率分别提高 和;与 算法对比,分类准确率分别提高 和。关键词:不平衡样本;风机叶片;样本增强;生成式对抗网络;开裂识别中图分类号:;文献标识码:,(,):,(),:;第期张玉彦 等:不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别引言随着“双碳”目标的推进,我国对清洁能源的需
3、求不断增加,风电作为一种绿色非化石能源,得到了广泛开发利用。据统计,“十三五”期间,我国风电年新增装机容量达到 万千瓦,成为继火电、水电后的第三大电力来源,占全部发电量的 。作为风机的关键部件,叶片起将风能转化为电能的作用,其健康状态非常重要。据统计,某风场运行年,停机超过天及以上的机组失效事故中,因叶片开裂导致的事故占总数的,且多发生在盛风期间。因此,如何监测叶片的健康状态,特别在裂纹初期快速准确地识别叶片开裂状态,受到了大量关注。现有研究采用的方法主要有振动信号分析、红外成像检测及声发射识别等。李大冰等将风机叶片振动信号作为研究对象,利用小波分解方法进行信号分析;刘晓波等利用小波包分析方法
4、对采集的实时信号进行五层小波包分解,并对风机叶片进行状态监测和实时数据分析,同时对采样数据进行故障特征提取。针对数据采集与监视控制系统(,)采集存在数据冗余,难以判别叶片健康状态的问题,陈维刚等提出一种将随机森林算法与轻量的梯度提升机(,)算法结合的模型对叶片健康状态进行分类和预测;曹可乐等通过比较逻辑回归与极端梯度提升(,)集成学习算法,发现 集成学习算法能更精准地预测风机叶片开裂的状态。由于工况不同带来的数据占比不平衡,等 提出一种改进的过采样平衡算法来优化数据集,然后通过改进的最近邻(,)分类方法对风电机组叶片进行故障诊断;杨娜 采用过采样与欠采样相结合的方法处理数据不平衡问题,建立小波
5、去噪与 长 短 期 记 忆(,)神经网络模型评测模型对 叶 片 结 冰 情 况 进 行 分 析;叶 春 霖 等 采 用 方法和合成少数类过采样(,)算法的过采样技术进行数据清洗与增强,提高了故障分类的准确性。以上对风机叶片开裂状态的监测方法,多基于叶片开裂状态样本充足、样本数量均衡的假设,然而实际应用中,风机正常工作的数据集一定远大于故障数据集,呈现为样本分布不平衡,导致机器学习效率低、故障诊断准确率低等问题。传统的过采样与重采样技术解决样本不平衡问题仍具有一定的局限性,例如过采样容易导致新样本过度拟合,欠采样易丢失信息。针对以上问题,本文提出一种基于生成式 对 抗 网 络(,)的风机叶片开裂
6、状态识别方法。该方法立足叶片开裂状态的真实样本,利用 算法中的生成器模型生成服从真实样本分布的虚拟开裂样本,从而增加样本数量;利用判别器模型输出的分类误差分别训练生成器和判别器模型,调整生成数据集的概率分布,最后达到生成的数据集接近故障数据集的目的。本文研究的贡献主要为解决样本不平衡问题和提高故障诊断预测准确率。不平衡样本问题分析及研究动机不平衡样本表现为不同类别下的样本量具有差异,以二分类问题为例,数量多的类别为多数类,反之为少数类。风机叶片状态数据具有明显的不平衡特点,主要原因是禁止带病作业,采集的风机叶片数据多处于正常状态,开裂状态的数据极少。若直接对此类样本进行分析,分类模型将偏向于正
7、常样本,出现整体分类准确率高、开裂识别率低的情况。具体分析如下:以经验风险最小化分类模型为例(如神经网络、逻辑回归等),通过最小化二元交叉熵目标函数(如式(),实现预测的概率分布与实际的概率分布拟合。()()()。()将式()进一步分解为 ()()()()()()()()()()()()。()其中:为多数类样本的个数;为少数类样本的个数。当 时,该目标函数约等于多数类计算机集成制造系统第 卷样本的损失值,即忽略了针对少数类样本的预测概率值与真实值的分布一致性,导致少数类样本被误识别为正常状态,造成开裂状态的漏报和误报,给风机叶片的安全运行带来隐患。为了提高对不平衡样本分类的准确率,学术界进行了
8、大量研究,现有方法主要分为数据层面方法和算法层面方法。()数据层面学者们对多数类(少数类)按照规则减少(增加)样本数量(即重采样),以使数据集均衡,主要有欠采样技术、过采样技术和混合采样技术。欠采样技术随机删除多数类样本,然而当删除边界样本时,该方法造成信息丢失,导致分类模型的泛化能力降低;过采样技术随机复制少数类样本,由于重复复制样本,该方法容易导致过度拟合;混合采样技术对两种方法进行组合,但仍然存在上述缺点。()算法层面通过提升分类器性能并引入新的损失函数提高对不平衡样本分类的准确率,主要算法 有 代 价 敏 感 学 习、集 成 学 习 和 提 升 算法,该类算法在保障整体准确率的前提下提
9、升小类样本的识别率,但需要复杂的数学推导、精准的算法设计和深层次的数理分析。因此,本文提 出 基 于的 风 机 叶 片 开 裂状态识别 方 法,通 过 生 成 服 从 少 数 类 样 本分布的虚拟样本解决样本不平衡问题,从而避免采样方法带来的问题,同时无需对算法的底层公式进行精准设计,提高了风机叶片状态分类的准确率。生成式对抗网络原理 由生成器和判别器两部分组成,具体框架如图所示。生成器不断学习真实数据的概率分布,并将随机噪声向量转化为以假乱真的虚拟样本;判别器作为二分类器,输出数据为真的概率,区分生成的“假”数据与训练集中的“真”数据。假设随机噪声向量为,真实样本为,生成器输出 为();判
10、别 器 进 行 判 断,得 到()和()。目标函数(,)表示为 (,)()()()()。()对于判别器,期望(),(),即(,)最大,记作 ;对于生成器,期望(),即(,)最小,记作 。训练判别器时,将与()输入其中,判别器对两者进行分类,计算误差并更新参数。以神经网络判别器为例,参数更新如下:(,);(,)。()式中:和为判别器的参数;为学习率。由于 ,采用随机梯度上升的方法优化目标。训练生成器 时,从 随 机 噪 声 向 量中 合 成 虚 拟 样 本(),判别器对和()分类,计算误差并以反向 传 播 的 方 式 更 新 生 成 器 训 练 参 数,具 体如下:(,);(,)。()式中:和为
11、生成器的参数;为学习率。基于生成式对抗网络的开裂状态样本增强方法基于 的叶片开裂状态样本增强过程如图所示。将叶片开裂状态样本集作为真实样本,生成器根据随机噪声向量(服从标准正态分布)生成叶片开裂状态虚拟样本();判别器对和()分类,计算误差并用式()和式()分别迭代训练判别器和生成器。整个 算法中主要包括生成器网络模型和判别器网络模型两部分,网络结构如表所示。生第期张玉彦 等:不平衡样本下基于生成式对抗网络的风机叶片开裂状态识别成器是一个具有层隐藏层的神经网络,隐藏层中使用 激活函数,如式()所示。函数保留负轴中的数据,其导函数大于,能够有效避免训练过程中梯度消失造成的神经元“死亡”现象。(,
12、)(,)。()式中 是一个值为 的常数。表生成器与判别器网络结构表网络生成器网络结构输入层激活函数批量归一化隐藏层激活函数批量归一化隐藏层激活函数输出层神经元函数参数 真实样本维度判别器网络输入层激活函数隐藏层激活函数输出层 前向计算过程中,特征值分布会逐渐向激活函数的饱和区间靠近,导致梯度消失。因此,在隐藏层之间增加批量归一化(,)处理,保证神经元的值服从标准正态分布,避免梯度消失,实现快速收敛。层的向前传导表示如下:;();?;?。()式中:为均值;为方差;为批量样本的大小;是一个值为 的常数,?表示集合中的样本转为均值和方差的标准样本;,为可学习参数。在输出层使用 激活函数,表示为()。
13、()判别器网络是单隐藏层的神经网络,输出层使用 激活函数,确保输出值介于之间,使用二元交叉熵度量二分类预测概率与实际概率之间的差异,采用式()优化网络权重。不平衡样本下基于 的风机叶片开裂状态识别流程如图所示,详细步骤如下:()在风机叶片数据集中随机选取小批量开裂状态数据集作为真实样本,将生成器随机生成的数据 集 作 为 虚 拟 样 本,两 者 共 同 作 为 训 练 样本集。()固定生成器参数,用真实样本与虚拟样本训练判别器。()固定判别器参数,再训练生成器。()重复上述过程直至最大训练次数,输出风机叶片平衡数据集。()用分类器对叶片平衡数据集进行故障诊断,识别风机叶片开裂状态。图所 示 为
14、 拟 合 二 元 正 态 分 布 的 例 子,随机噪声为 维向量,每个维度独立且服从一维标准 正 态 分 布。其 中,黑 色 等 高 线 为 真 实 样本分布(服 从 二 元 正 态 分 布),随 着 迭 代 次 数 的增 加,逐 渐 向 真 实 样 本 分 布 位 置 趋 近 的 等 高 线为虚拟样本分布。可 见虚拟样本分布逐渐接近真实样本分布,当 迭 代次数 达到 时,虚 拟样 本 分 布 与 真 实 样 本 分 布 几 乎 相 同,即 根 据 虚计算机集成制造系统第 卷拟样本概率分布采样 得 到的 样 本可以 作 为 真 实样本使用。通用不平衡数据集实验结果与分析 数据集描述首先,在通
15、用 不 平 衡 样 本 集 上 进 行 实 验,通用 不 平 衡 样 本 集 来 自 (:),具体 如 表 所 示。该 不平衡样本集含有 种 类别,共 组 数据,属 性数量在 之间,不平衡比例最低为 ,最高为 。需 要 特 别 说 明 的 是:这 些 数据并非来自风机叶片开裂领域,因为本文提出的基于 算法具 有通用 性,数 据 集作 为基准数据 集,被 广 泛 用 于 测 试 各 种 不 平 衡 学 习 方法,所以可以将该数据集作为测试数据。实验采用 的 数 据 分 析 软 件 为 ,。表 数据集序号数据集多数类 少数类 属性数量不平衡比例(多数类少数类)第期张玉彦 等:不平衡样本下基于生成式
16、对抗网络的风机叶片开裂状态识别续表 以表中 数据为例,多数类记为 ,少数类记为 ,则两类间的不平衡量 。()式中 表示需要生成器生成的虚拟样本数量。实验结果与分析通过 算法生成 个虚拟样本,再用折交叉验证进行实验,交叉验证通过多次划分降低了一次随机划分带来的偶然性,同时提高了数据的使用率及泛化能力,模型准确率较高。为了验证算法解决样本不平衡问题的有效性,采用精确率()、召回率()和 值为度量指标:();();()。()式中:为精确率;为召回率;为精确率和召回率的调和均值。在二分类问题中,代表真阳性,预测和标签均为真;代表假阳性,标签为假,预测为真;代表假阴性,标签为真,预测为假;代表真阴性,标签和预测均为假。分类结果分布如表所示。表分类结果分布实际标签预测结果阳性阴性阳性 阴性 分别在平衡前(原始数据)和平衡后(增强)对 组 数据进行实验,实验结果表所示。比较表中的,均值,平衡前在 组数据上的均值为 ,平衡后的均值为 ,发现在平衡后数据上的测试结果大于平衡前,说明分类准确率得到提高。作为精确率和召回率的调和平均数,可以对 和 做出整体评价,选择将其作为最终测评的参数。采用该指标进行深入