1、第 卷第期计算机集成制造系统 年月 :收稿日期:;修订日期:。;基金项目:国家自然科学基金资助项目();国家重点研发计划资助项目()。:,(),()基于主动生成式过采样和深度堆叠网络的轴承故障诊断李慧芳,徐光浩,黄双喜(北京理工大学 自动化学院 复杂系统智能控制与决策国家重点实验室,北京 ;清华大学 自动化系,北京 )摘要:针对数据不平衡分类问题,提出了一种基于主动生成式过采样与深度堆叠网络()的故障诊断方法。首先,在带有分类器的生成式对抗网络()的训练过程中,将 距离作为新目标函数,为生成器提供有效梯度,并根据损失值之比自适应地调整迭代过程中生成器与判别器的训练次数,克服训练不协调所导致的模
2、型收敛困难,以提高 的训练稳定性,改善生成样本的质量。其次,采用基于委员会查询()的主动学习算法,并设计多样性评价指标 ,对 生成的高信息熵样本进行二次筛选,以保证所挑选样本的多样性;同时利用筛选出的样本训练判别器,引导生成器生成信息量丰富的少数类样本。最后,在平衡数据集的基础上,训练基于 的故障分类模型。通过对比实验验证了所提出方法的有效性。关键词:故障诊断;不平衡数据;生成式对抗网络;深度学习中图分类号:文献标识码:,(,;,):,()(),(),:;第期李慧芳 等:基于主动生成式过采样和深度堆叠网络的轴承故障诊断引言工业设备的智能化运维与健康管理对于智能制造系统的无故障运行非常重要。这就
3、要求对关键设备进行持续监控,以提高其安全可靠性、降低维护成本。随着工业互联网的发展和广泛应用,海量、多源异构的设备运行状态数据也变得易于收集,并逐渐涌现出许多数据驱动的故障诊断模型。这些模型能够利用自身的深层结构自主学习并挖掘故障特征,建立从运行数据到故障类型的非线性映射,实现端到端的准确故障识别。可以说,深度学习方法推动了故障诊断技术的发展,并逐步成为最有潜力的主流方法。现有的深度学习算法大多假设各类故障的训练样本数目几近相同,即数据的类别基本平衡。可是,实际收集到的故障数据往往存在类别不平衡的情况,对容易发生的故障,可收集的数据较多;对发生频率很低的故障,可收集的数据也相对较少。通常,将样
4、本数目较多的故障称为多数类故障,而数目较少的故障称为少数类故障。在面向不平衡数据时,标准深度学习模型容易将不常发生的少数类故障识别为多数类故障,导致少数类故障的检测率较低甚至无法检测,影响模型的实用性。一旦故障发生却不能及时、准确地诊断,或者潜在的故障即将发生却不能正确地预测或预警,“轻”则影响产品质量、延误生产,“重”则可能酿成事故、威胁人身安全。关于不平衡数据驱动的故障分类问题,已经出现了大量研究。从数据层面看,典型的是重采样方法,主要针对数据稀少问题,通过改变训练数据的分布来降低少数类样本的不平衡比例,以尽量使故障数据适合于标准的机器学习算法。按照采样对象的不同,现有的重采样方法可分为欠
5、采样和过采样方法。欠采样方法,通过减少多数类样本的数量和平衡数据集来提高少数类的分类精度。最简单的欠采样方法是随机欠 采样(,),通过随机删除部分多数类样本来平衡样本数量,例如方昊等采用多次随机欠采样代替单次随机欠采样来解决软件故障检测中的数据不平衡问题。随机欠采样方法操作简单,但是随机删除可能丢失潜在的样本信息,从而导致分类器性能下降。为此,出现了一些启发式欠采样方法,例如 根据最邻近法(,)测量得到的多数类和少数类之间的距离来移除样本。与此类似,等 基于 规则,从类边界中删除容易被错误分类的多数类样本。这些方法能够在一定程度上解决随机欠采样容易丢失重要样本信息的问题,但其本质是舍弃多数类样
6、本,很有可能破坏样本集的分布,而且当少数类样本过少时,通过大量删除多数类样本来平衡数据集也不现实。过采样方法则将重点放在少数类样本上,通过增加少数类样本的数量来降低数据间的不平衡程度。与欠采样相比,过采样无需担心多数类样本的信息丢失,模型依然可以获得完整的多数类故障特征,在一定程度上保证了多数类故障的识别率。最容易实现的过采样方法是随机过采样(,),通过随机复制或简单旋转来增加少数类样本的数量,易于实现,但是“复制”样本会增加过拟合的风险。为此,等 提出一种合成 少 数 类 过 采 样 技术(,),以解决因随机插入合成样本而导致的过拟合问题。作为一种经典的过采样方法,已经应用于不同领域,但它可
7、能引入噪声和导致过度泛化。因此,出现了一系列 的变体。等 在选择最近邻样本时,通过引入不同样本的权值,有效地处理过度泛 化问题。和 是在考虑了领域多数类样本的基础上,对原始 进行改进。将过采 样 操 作 限 制 在 类 边 界 附 近,而 则定义了安全区和噪声区,以防止增加新的样本重叠。与此类似,韩志艳等 提出一种新的过采样方法,加权合成少数类过采样技术(,),将样本划分为几个重要性不同的组,再基于重要性进行样本合成。尽管上述方法在不平衡数据分类方面取得了一定的效果,但在实际应用时仍然面临挑战,主要在于其很难自动学习原始数据样本的分布,容易引入噪声,且对不同的数据集适应性较差。深度学习方法具备
8、自主学习的能力,为这一问题的解决提供了新的契机。例如 等 提出一种深度过采样(,)模型,通过在特征空间对少数类样本进行重采样,提高了少数类的分类性能。在基于深度学习的数据生成方法中,年 等 提 出 的 生 成 式 对 抗 网 络(,),通过计算机集成制造系统第 卷学习原始样本的数据分布特征,生成具有相似数据分布的新合成样本。已被广泛应用于不同领域,也出现了一些关于它的变体。等 将深度神经网络和 用于异步电机故障检测,发现当不平衡比率较小时,采用原始 生成的样本在故障分类中的表现优于典型的过采样技术。等 则利用条件生成式对抗网络(,)生成少数类样本,有效地改善了数据的不平衡程度。等 构建了半监督
9、信息最大化生成式对抗网络(,),利用对抗结构生成少数类样本,通过数据增强来解决数据不平衡问题。此外,还有研究将 与自动编码器相结合。等 将 与堆叠降噪自动编码器(,)结合,提出了一种基于深度特征提取的故障分类方法,进行齿轮箱故障诊断。等 提出了一种 故障诊断方法,首先基于 对样本数据的不平衡性进行补偿,再利用堆叠自动编码器(,)提 取 信 号 特 征。等 将对抗学习引入卷积神经网络(,),提高了特征表示的鲁棒性,增强了其模型的泛化能力。等 提出了一种深度卷积模型,通过从少数类样本中模拟原始数据分布并生成新样本来改善类别不平衡性。包萍等 提出了一种基于和 的故障诊断方法,在平衡数据集之后,引入
10、损失函数来提高故障识别的准确性。大多数面向类别不平衡的故障识别方法,试图从数据层面解决类别不平衡带来的少数类故障难以识别或少数类故障检出率太低的问题,即通过基于过采样的数据增强方法,在一定程度上减少或者弥补这种不平衡性的影响,再使用标准深度学习模型进行故障分类。作为目前流行的数据增强技术,基于 的生成式过采样方法获得了越来越多的关注。但是,现有方法在生成样本时存在以下问题:由于 固有的模式坍塌与模型训练稳定性问题,导致生成样本的质量较差,甚至可能引入噪声样本;在模型训练过程中,缺乏对生成样本个体差异性的关注,使生成器生成的样本多样性不足,影响模型的泛化能力,最终影响模型的少数类故障识别率。为此
11、,本文考虑数据不平衡对诊断准确率的影响,提出了一种基于主动生成式过采样与深度堆叠网络(,)的故障分类方法,采用 和主动学习算法,学习原始样本分布,在保证生成样本与原始样本分布相似的前提下,生成多样性好的高质量样本。在对数据集进行平衡化处理后,设计基于 的故障分类器,提高少数类故障识别率。主要贡献如下:()为了改善 训练的稳定性,并解决因原目标函数 散度()的突变性所造成的生成器梯度难以获取问题,首先,以连续变化的 距离为目标函数,搭建 模型,使生成器能够更好地获取有效梯度,在一定程度上缓解 的训练困难。其次,设计了基于损失值之比的模型参数更新策略,自适应地调整生成器与判别器训练的每轮迭代次数,
12、即生成器和判别器的训练步伐,克服因任何一方训练效果太差或太好,即生成器和判别器训练不协调而引起的模型收敛困难,确保 训练的稳定性,提升生成少数类样本的质量。()为了引导 生成丰富多样的少数类样本,首先,将主动学习算法 嵌入到 训练过程中,从生成样本中挑选一批信息熵较高的样本,并采用多样性评价指标 对所选样本进行二次挑选,以去除冗余、保证所挑选样本的多样性。其次,将所选样本当作真实样本,连同剩余样本一起训练判别器。通过判别器与生成器的对抗式学习,在保证生成样本与真实样本相似的基础上,引导生成器生成类似于所选样本并具有丰富信息的少数类样本,为少数类识别提供更多的故障知识。()为了减少深度网络训练参
13、数微调阶段因随机梯度下降可能带来的参数优化问题,在对故障数据进行平衡化处理的基础上,设计了一种基于 的故障分类模型,即将依次训练好的多个基本功能组件或分类器相互堆叠,构建复杂的故障分类模型。通过跨机器并行训练与特征学习训练故障分类器,在确保模型参数优化性能的同时,大大提高故障诊断模型的训练效率。相关理论基础 主动学习算法主动学习算法旨在提高模型性能的同时,尽可能减少样本标记的成本。作为典型的数据驱动方法,深度学习需要学习大量的参数,且参数优化离不第期李慧芳 等:基于主动生成式过采样和深度堆叠网络的轴承故障诊断开大量的注释样本。早期的主动学习算法未得到足够重视,主要是由于传统机器学习方法对标记样
14、本的要求相对较少。随着工业互联网的深入应用,海量数据的收集变得相对容易。然而,大多深度学习的研究依赖于大量公开可用的注释数据集,且高质量地标注数据集往往需要耗费大量的人力。特别地,当数据标注需要高水平的领域专家知识时,数据集的获取就变得异常艰难,而主动学习算法开始逐渐发挥自身的价值。主动学习的基本思想是:从没有标记的数据集中选择最有用的样本,并经督导者进行标注后将其加入到标记样本集,用以训练机器学习模型,从而在保持模型性能的同时尽可能地降低样本标记成本。通过精心设计查询规则,主动学习算法从无标记的数据集中选择最好的样本,向督导者查询其标签,试图最大限度地降低标记成本。如图所示为一个基本的主动学
15、习模型。查询规则的设计对主动学习方法的性能至关重要,因此出现了不同的查询策略。例如,在一个给定未标记数据集上的主要查询策略,包括基于不确定性的方法和基于多样性的方法,以及同时考虑查询样本不确定性和多样性的混合查询策略,后者试图在这两者之间寻找平衡。基于不确定性的单独采样往往会带来采样偏差,选取的样本分布未必与未标记数据集的分布一致。另一方面,只追求抽样多样性的策略会增加标注的成本,因为可能选择相当数量信息含量低的样本。主动学习已有大量的研究,但是,仍然存在高维数据扩展的问题。因此,大多数人工智能研究更倾向于低维问题。此外,主动学习算法通常根据预先提取的特征查询高值样本,不具备提取特征的能力。带
16、有辅助分类器的生成式对抗网络带有辅助分类器的生成式对抗网络(,)起 源 于 条 件 生 成 对 抗 网 络()。通过在生成器的输入中添加样本标签信息来控制生成样本的类别。是对 的拓展,除了在输入中添加标签信息外,采用一个分类器来辅助判别器。因此,不仅可以判断一个样本来自于真实分布还是生成分布,还可以判断该生成样本的类别。也就是说,在 的判别器中增加了一个分类功能,其结构如图所示。此外,的实验结果说明了通过在的潜在空间中添加更多的结构和或专门的损失函数,就可以产生更高质量的样本。与原始生成的样本相比,的每一个生成样本 均有一个相应的类别标签,可以表示为 (,)。其中,表示第个样本对应的标签,表示第个噪声输入。由于 的分类功能,其损失函数也包括判别损失和分类损失两个部分,且和 的判别器损失函数相同,如式()所示:(预测标签真实 )(预测标签生成 )。()式中:(预测标签真实 )表示“输入为真实样本、判别器给出的预测标签也为真实样本”的概率;(预测标签生成 )表示“输入为生成样本、判别器给出的预测标签也为生成样本”的概率。分类损失是 的特有的指标,其计算如式()所示:(分类标签真实标签 )(