1、SHIP ENGINEERING 船 舶 工 程 Vol.45 No.1 2023 总第 45 卷,2023 年第 1 期 116 基于随机森林算法的船舶电站故障诊断基于随机森林算法的船舶电站故障诊断 陈冠宇,杨 鹏,陈 宁(江苏科技大学 能源与动力学院,江苏镇江 212003)摘 要:摘 要:针对船舶电站故障诊断中常用的BP神经网络算法存在的收敛速度慢和诊断准确率不高等问题,提出一种基于随机森林算法的船舶电站诊断模型。在Simulink软件中搭建船舶电站故障模型,通过在Simulink中仿真得到船舶电站故障数据,分析基于随机森林算法的船舶电站故障诊断原理。在MATLAB软件中分别建立基于随机
2、森林算法和BP神经网络算法的船舶电站故障诊断模型,并对二者的故障诊断结果进行对比分析。结果表明,基于随机森林算法的诊断模型相比基于BP神经网络的诊断模型,能显著提高船舶电站故障诊断的效率和准确率。关键词:关键词:随机森林算法;船舶电站;故障诊断;Simulink 软件 中图分类号:中图分类号:U665.12 文献标志码:文献标志码:A 【DOI】10.13788/ki.cbgc.2023.01.18 Fault Diagnosis of Ship Power Station Based on Random Forest Algorithm CHEN Guanyu,YANG Peng,CHEN
3、Ning(School of Energy and Power,Jiangsu University of Science and Technology,Zhenjiang 212003,Jiangsu,China)Abstract:In order to solve the problems of slow convergence and low diagnostic accuracy of BP neural network algorithm in fault diagnosis of marine power station,a diagnosis model based on ran
4、dom forest algorithm is proposed.The fault model of ship power station is built in Simulink software,and the fault data of ship power station are obtained by simulation in Simulink,and the fault diagnosis principle of ship power station based on random forest algorithm is analyzed.The fault diagnosi
5、s models of ship power station based on random forest algorithm and BP neural network algorithm are established in MATLAB software,and the fault diagnosis results of the algorithms are compared and analyzed.The results show that the fault diagnosis model based on random forest algorithm can signific
6、antly improve the efficiency and accuracy of fault diagnosis of ship power station compared with the model based on BP neural network.Key words:random forest algorithm;marine power station;fault diagnosis;Simulink software 0 引言引言 船舶电站主要用来为船舶动力系统和照明系统等提供稳定的电力,近年来随着船舶的负载容量不断增加,负载类型不断增多,其复杂程度越来越高,船舶对其稳
7、定运行提出了更高的要求。对船舶电站进行故障诊断对于保障船舶电站的安全运行而言具有重要意义,船舶电站负载类型和线路的复杂性给船舶电站故障诊断带来了很大的难度。目前,船舶故障诊断中应用比较广泛的算法是 BP(Back Propagation)神经网络算法,其是一种利用梯度下降法的搜索算法,具有结构简单、可塑性强和自适应能力强等特点,适合进行多故障的复杂模式识别。然而,BP 神经网络的梯度下降法存在收敛速度慢和易陷入局部极小点的问题,使得船舶故障诊断的效率和准确率较低。由此,本文提出一种基于随机森林算法的船舶电站故障诊断模型。随机森林算法是一种基于 Bagging 思想和决策树的分类算法,具有训练速
8、度较快和分类准确率较高等优势,能有效改善 BP 神经网络训练速度慢和故障诊断准确率低的问题1。收稿日期:2021-07-17;修回日期:2022-02-17 作者简介:陈冠宇(1994),男,助理工程师。研究方向:船舶电气。通信作者:陈 宁(1963),男,教授。研究方向:船舶与海洋工程轮机系统与装备数字化设计、制造与性能仿真技术。陈冠宇等,基于随机森林算法的船舶电站故障诊断 117 1 船舶电站故障仿真模型建立船舶电站故障仿真模型建立 基于船舶电站的结构和工作原理,在 MATLAB软件的 Simulink 中建立船舶电站故障仿真模型2。船舶电站由原动机及其调速器、发电机、励磁系统和负载组成,
9、其中,原动机一般采用柴油机,发电机根据船舶负载情况选择。本文所述船舶电站模型的实船参数来自于我国自主建造的“三沙 1 号”补给船。柴油机调速器模型采用 2 阶模型,发电机模型采用Simulink 元件库中的同步电机模型;由于船上的容性负载较少,负载模型选择的是Simulink 元件库中的功率因数滞后的负载模型。针对 2 台发电机组的并车模块是根据发电机并车原理搭建的,通过与实船的船舶电站数据相对比可知,此次建立的船舶电站故障仿真模型的仿真数据符合要求3-5。由于船舶电站的结构复杂,出现的故障类型繁多,选择2 台发电机的正常工作模式和6 种故障模式对其进行仿真,这6种故障模式分别为DG1单相接地
10、故障、DG1AB 相间短路、DG1 三相接地短路、DG2 单相接地故障、DG2AB 相间短路和DG2 三相接地短路。船舶电站故障仿真模型见图1。图1 船舶电站故障仿真模型 2 随机森林算法原理随机森林算法原理 2.1 决策树决策树 随机森林算法是一种基于 Bagging 思想的机器学习算法,其基本单元是决策树,随机森林由多棵决策树构成。决策树是一种树结构,由根节点、分裂节点和叶节点组成。每个分裂节点表示1 个特征属性上的测试,每个分支表示该特征属性在某个值域上的输出,而每个叶节点属于1 种类别。采用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按其值选择输出分支,直至到
11、达叶子节点,将叶子节点存放的类别作为最终的决策结果。图 2 为决策树结构,其中 T1 为分裂节点,根据不同的属性分裂为 T2 和 T3,经过多次分裂,最终得到 N1N5 的叶子节点,N1N5 为根据不同类别得到的结果值6。2.2 Bagging 思想思想 Bagging 思想是一种集成思想,即对多个弱学习模型进行组合,得到强学习模型。图 3 为 Bagging 思想原理:首先,在m 个训练集中,每次随机采样n 个新的采样集;其次,在每个新采样集上构建 1 个弱学习器,得到T 个弱学习器,这些弱学习器之间无相关性;最后,将这T 个弱学习器整合成强学习器,得到最终的模型7。图2 决策树结构 图3
12、Bagging 思想原理 m 个样本训练集n 个样本 采样集1 弱学 习器1 n 个样本 采样集2 弱学 习器2 n 个样本 采样集T 弱学 习器T 训练 随机样本结 合 强学习器训练 训练 船舶电气、探通导设备及自动控制 118 2.3 随机森林算法随机森林算法 随机森林算法实际上是一种特殊的 Bagging+CART 决策树的方法,在随机森林中选择特殊的分类回归树(Classification and Regression Trees,CART)作为弱学习器。随机森林对决策树的建立进行了改进:对于普通的决策树,一般从节点上的所有n 个样本特征中选择最优的特征对决策树的左右子树进行划分;对于
13、随机森林,通过随机选择节点上的一部分样本特征(这个数字小于 n,假设为 nt),从这 nt个样本特征中选择最优的特征对决策树的左右子树进行划分,这样能进一步增强模型的泛化能力。一般nt越小,模型的方差越小,但训练集的拟合程度会变低,因此需选择合适的nt,使模型的效果更好。随机森林算法的应用步骤:1)选择样本集 D 作为输入,D=(x1,y1),(x2,y2),(x3,y3),(xm,ym),弱学习器的迭代次数为 T;2)对样本集进行随机采样,随机采样次数t=1,2,3,T,每次随机抽取m 个样本,得到采样样本Dt;3)在 CART 决策树模型Gt(x)中对得到的采样样本Dt进行训练,即在第t
14、个弱学习器中进行学习;4)输出最终的强学习器f(x)。随机森林的分类效果是由随机森林的每棵树的分类能力和决策树之间的相关性决定的,每棵树的分类能力越强,分类效果越好;决策树之间的相关性越大,分类效果越差。对于特征量的选择,特征量越多,每棵树的分类能力越强,决策树之间的相关性越大,因此特征量的选择对最终的分类效果有很大的影响。随机森林的优点8:1)具有较高的准确性,相比 BP 神经网络算法,随机森林的准确率更高。2)能处理高维度的样本数据,无须对样本数据进行降维。3)对样本数据的容纳性较强,能处理大数据的分类预测问题。4)能在内部获取生成的无偏误差。3 基于随机森林算法的船舶电站故障诊断原理基于
15、随机森林算法的船舶电站故障诊断原理 基于随机森林算法的船舶电站故障诊断的实质是对故障进行分类,通过对不同类型故障的特征量数据进行分析,得到故障类型。特征量的提取是基于随机森林算法的故障诊断的关键因素之一,因此需从船舶电站的众多状态信息数据中提取合适的特征量,选取的特征量能准确反映故障的类型。选择合适的特征量数据之后,对其进行整理,将整理后的数据作为随机森林算法的输入,将故障类型作为随机森林算法的输出。在随机森林算法中,需对大量特征量数据进行多次训练,最终得到一个比较稳定的模型,即基于随机森林算法的船舶电站故障诊断模型,通过测试样本数据检验该模型的准确率。随机森林训练原理图见图4。图4 随机森林
16、训练原理图 4 基于随机森林算法的船舶电站故障诊断模型基于随机森林算法的船舶电站故障诊断模型 4.1 特征量的提取特征量的提取 对Simulink中的船舶电站仿真模型进行仿真测试发现,在不同的故障条件下,发电机的三相电压、三相电流和频率能准确反映该发电机的工作状态,因此选择发电机的三相电压、三相电流和频率作为特征量,2 台发电机总共14 个特征量。在Simulink 中对不同的故障模型进行仿真,在仿真时对 2 台发电机的三相电压、三相电流和频率仿真数据进行输出和保存。在MATLAB 中对发电机的三相电压、三相电流和频率数据进行处理8-9,选择其中比较稳定的三相电压、三相电流和频率数据作为随机森林算法的输入。首先分别对4 种船舶电站运行模式进行仿真,对2 台发电机的三相电压、三相电流和频率进行输出和保存。从每组模型仿真数据中选取比较稳定的10 000个发电机三相电压、三相电流和频率数据。分别用数字 17 表示船舶电站和 2 台发电机的正常模式和 6种故障模式,具体的船舶电站故障类型、样本数量和故障类型编号见表1。表1 船舶电站故障类型、样本数量和故障类型编号 故障类型 样本数量/个 故障