大规模光纤网络异常节点数据深度挖掘方法研究

资源描述

1、第 44 卷第 4 期2023 年 4 月激光杂志LASER JOURNALVol.44,No.4April,2023http /收稿日期:2022-07-21基金项目:广西高校中青年教师基础能力提升项目(No.2020KY17019)作者简介:耿德志(1982-),男,硕士,副教授,研究方向:智能信息处理、数据挖掘技术。大规模光纤网络异常节点数据深度挖掘方法研究耿德志1,宫海晓21晋中学院信息技术与工程系,山西晋中 030619;2梧州学院大数据与软件工程学院,广西梧州 543002摘要:为解决常用光纤网络异常节点数据挖掘方法耗时长、精度低的问题,提出一种可应用于大规模光纤网络的异

2、常节点数据深度挖掘方法。预处理光纤网络节点数据,提取信息熵特征,并对数据进行降维操作,引入随机森林算法,通过自助采样形成多个随机样本空间,通过投票机制合并处理并输出树群中各棵子树光纤网络异常节点数据深度挖掘结果,实现光纤网络异常节点挖掘。实验结果表明,所提方法的精确度高达99.8%,耗时仅为 9.2 min,漏检率为 0.12%,因此,该方法可以获取高效率、高精度的光纤网络异常节点数据深度挖掘结果。关键词:大规模;光纤网络;异常节点数据;深度挖掘中图分类号:TN929.11 文献标识码:A doi:10.14016/ki.jgzz.2023.04.124Research on deep min

3、ing method of abnormal node data in large-scaleoptical fiber networkGENG Dezhi1,GONG Haixiao21Department of Information Technology and Engineering,Jinzhong College,Jinzhong 030619,China;2School of Data Science&Software Engineering,Wuzhou University,Wuzhou 543002,ChinaAbstract:In order to solve the p

4、roblem of time-consuming and low precision of common data mining methods for abnormal nodes in optical fiber networks,a deep mining method for abnormal nodes in large-scale optical fiber net-works is proposed.Preprocess the data of optical fiber network nodes,extract the information entropy feature,

5、and re-duce the dimension of the data.Introduce the random forest algorithm,form multiple random sample spaces through self-help sampling,merge and output the data mining results of abnormal optical fiber network nodes of each sub tree in the tree group through the voting mechanism,so as to realize

6、the mining of abnormal optical fiber network nodes.The experimental results show that the accuracy of the proposed method is as high as 99.8%,the time-consuming is only 9.2 min,and the missed detection rate is 0.12%.Therefore,this method can obtain high-efficiency and high-precision data mining resu

7、lts of abnormal nodes in optical fiber network.Key words:large scale;fiber network;abnormal node data;deep mining1 引言随着现代计算机网络以及信息技术的飞速发展,互联网完成了全球信息共享,在享受网络系统带来便利的同时,也遭受了更多的攻击,网络使用者的个人信息等受到威胁,对网络安全性保护成为急需解决的重要问题。信息技术的发展使得网络数据具有高维度、高复杂度的性能,通过数据挖掘可快速处理海量数据1-2。为提升光纤网络安全性,国内相关专家针对网络异常节点数据深度挖掘方法展开了大量研究,例

8、如刘云朋等人3通过贝叶斯定量对全部数据样本实行特征分类处理,同时修正先验概率,针对异常信息类型设定对应的特征参数以及概率化系数,最终借助贝叶http /斯网络完成异常数据挖掘,但是该方法数据挖掘精度低。任江波等人4优先对信号扫描处理,同时利用光谱分析方法完成数据特征挖掘,但是该方法由于挖掘耗时长,导致算法运行差。孙素萍等人5分析光纤传感网络异常行为数据检测原理,并采集光纤传感网络异常行为的多源信息,然后采用神经网络对光纤传感网络异常行为的多源信息进行学习,拟合光纤传感网络异常行为变化特点,设计光纤传感网络异常行为检测的分类器,实现异常数据挖掘,但是该方法存在异常数据挖掘效果不佳的情况。在以上几

9、种方法的基础上,针对光纤异常数据挖掘算法的不足,提出一种大规模光纤网络异常节点数据深度挖掘方法,该方法在单决策树挖掘算法的基础上,引入随机森林算法,实现了数据挖掘,以期提升异常节点的挖掘效率和挖掘精度。2 方法2.1 大规模光纤网络节点数据降维处理信息是一个十分抽象的概念,设定不确定性函数e 代表概率 d 的单调递减函数,两个彼此相互独立的符号所产生的不确定性等于两者之和,具体计算式为e(p1,p2)=e(p1)+e(p2)(1)式中,e(p1,p2)代表两个符号的不确定性总和;e(p1)和 e(p2)分别代表两个符号的不确定性。同时满足两个条件的函数 e 即为对数函数 e(p),对应计算式为

10、e(p)=log1p-log(p)|(2)式中,p 代表函数的总数。通过分析信息熵的相关理论可知,信息熵主要是衡量信息量多少的一个概率。信息熵被广泛应用于不同的系统中,系统越有序,说明信息熵越低;而信息越混乱,信息熵就越高。因此,可将信息熵用于度量系统的有序化程度。将信息熵应用于大规模光纤网络节点数据降维处理6-7。通过信息熵值决定节点数据特征是否保留或者删除。通过以下两种方案确定,分别为:(1)设定信息熵阈值完成特征选择:通过特征分析应用的重要性,同时通过有用特征和无用特征完成信息熵值的分界处理,将其分界点设定为信息熵阈值。(2)保留给定比例的特征,通过公式(3)计算被选择特征在原始数据中所

11、占据的比例 threshold:threshold=i=1F(I)j=1F(j)(3)式中,F(I)和 F(j)分别代表第 i 个和第 j 个特征。因此,可将信息熵应用到大规模光纤网络节点数据降维处理过程中,通过降维处理之后可有效降低时间和空间复杂度8-9。通过相关资料的分析,引入分块技术的 PCA,但是由于分块不随机或者原始数据分布不均匀等问题,导致整体数据的主要成分被丢弃,一些成分算不上主成分,但是在分块中占据十分高的比例。因此,以下从全局角度出发,通过信息熵的降维方式完成数据降维处理,详细的操作步骤如图 1 所示:图 1 大规模光纤网络节点数据降维处理流程图(1)将数据转换为矩阵 Emn

12、;(2)分别计算不同属性对应的信息熵值,将全部信息熵值对比分析,最终将满足需求的属性留下;(3)将样本矩阵中心化处理:1)计算属性均值;2)中心化处理;(4)计算不同属性的协方差矩阵 Cov,如公式(4)所示:Cov=cov(x1i,x1i),cov(x1i,x2i),cov(x1i,xni)cov(x2i,x1i),cov(x2i,x2i),cov(x2i,xni)cov(xni,x1i),cov(xni,x2i),cov(xni,xni)|(4)521耿德志,等:大规模光纤网络异常节点数据深度挖掘方法研究http /式中,cov(xni,xni)代表协方差子矩阵。(5)计算 cov 的特征

13、向量和特征值;(6)变换基的选择;(7)计算降维结果;(8)输出降维结果。2.2 光纤网络异常节点数据深度挖掘决策树学习是以实例学习为基础的,通过自上而下的递归方式,对比决策树内全部结点的属性值,通过属性值判断节点向下分支。信息熵和信息增益在数据挖掘中占据非常重要的地位10-11。分别对其分析:(1)信息熵:一个信息源越是有序,就说明其所包含的信息就越少,信息熵取值也就越低。设定样本集合 B 中共包含 m 种,则不同样本所占比例 Ent(E)可表示为Ent(E)=i=1qilog2qi(5)式中,qi代表第 i 类样本所占据的比例。在决策树分裂过程中,为更好地完成分类处理12-13,假设随机一

14、个属性值分裂后造成决策树包含的信息变化大,则证明分裂属性更优。设定所有属性组成集合 T,则对应的信息增益Gain(a,b)可表示为Gain(a,b)=Ent(E)-i=1|Ev|EEnt(Ev)(6)式中,Ev和 E 代表样本数分配对应的权重取值。信息增益的取值越大,说明分裂之后形成的分叉节点对决策树组建的信息改变也就越大,所以可通过信息增益选择最佳分裂属性值 bavg,具体计算式为bavg=argmaxi=1Gain(a,b)(7)为了确保决策树不会无限期的生长下去,阻止分裂的条件可划分为以下四种类型:1)当结点样本空间中所包含的样本低于一定数量时,会停止分类,如果继续分裂会消除噪声数据14

15、-15,有效避免过拟合情况的产生。2)假设纯度低于设定阈值,则结点就会停止分裂。3)当决策树的分裂程度达到设定数值,便会停止分裂。4)假设全部分裂特征被使用,则此种情况会出现在不同算法中。(2)信息增益率:假设属性值的数量越多,则信息增益取值越大。其中,信息增益率可表示为Gain-ratio(a,b)=Gain(a,b)H(a,b)(8)式中,Gain-ratio(a,b)代表信息增益;H(a,b)代表分类节点的信息增益取值,对应计算式为H(a,b)=i=1|Ev|Elog2|Ev|E(9)除了信息熵之外,树节点样本空间的纯度可以通过基尼值衡量处理。其中,基尼值的具体计算方式如下所示:Gini

16、(c)=i=1qiqj1-i=1qi|(10)式中,Gini(c)代表基尼值;qi和 qj代表不同类型对应的概率值。分析公式(10)可知,采用基尼值可准确反映树结点样本空间的纯度。其中,基尼值的大小和样本空间两者的纯度成反比,取值越小,则说明纯度越高。在决策树生成过程,可将基尼值作为结点分裂的依据,则对应的基尼指数可表示为Gini(c)-index(a,b)=i=1|Ev|EGini(c)(11)式中,Gini(c)-index(a,b)代表基尼指数。将 CART 应用于分类问题时,目标属性为离散值,因此,通过基尼值描述表征节点纯度,对应计算式为(a,b)=i=1Gini(c)-index(a,b)H(a,b)()2(12)式中,(a,b)代表节点纯度信息。在节点纯度的取值越大,则说明节点对应的数据越分散。为获取准确的大规模光纤网络异常节点数据深度挖掘结果16-17,需要优先分析网络异常节点产生的原因,同时将决策树引入节点数据挖掘过程,详细的操作步骤如下所示:为了增加全部的潜在规则,并没有设定决策树的生成深度限制。树节点将一直分裂,直至完全纯净无法再分割,即对应的基尼值等于 0。针对不

展开阅读全文

大规模光纤网络异常节点数据深度挖掘方法研究_耿德志.pdf