1、测试与故障诊断计算机测量与控制 ()收稿日期:;修回日期:。作者简介:闫海涛(),男,河北石家庄人,硕士研究生,主要从事网络入侵检测方向的研究。引用格式:闫海涛,张之义,朱晓明,等基于 模型的网络入侵检测计算机测量与控制,():文章编号:():中图分类号:文献标识码:基于 模型的网络入侵检测闫海涛,张之义,朱晓明,王鹏(中国电子科技集团公司 第 研究所,石家庄 )摘要:网络入侵检测系统()是检测网络攻击和维护网络安全的关键技术之一,是网络安全领域中的重要研究方向;近年来,研究者利用机器学习算法来完成入侵检测任务并取得了很好的成果,但检测效率和精确率有待进一步提升;在对鲸鱼优化算法()和极限梯度
2、提升算法()的特点进行实验和对比分析的基础上,提出了 模型,首先构建基于 的分类模型,然后利用 算法自适应搜索 的最优参数,最后基于 数据集评估所提出 模型的性能;实验结果表明,该模型在分类精确率、准确率、召回率和 指标方面均优于其他模型如 、随机森林、和 ;该工作也为群体智能优化算法在网络入侵检测中的应用提供了依据。关键词:网络安全;入侵检测;异常行为检测;集成学习 ,(,):(),()(),:;引言随着互联网技术发展和信息化建设的推进,使得政府和企业等组织机构越来越多的业务在线上处理,同时现有攻击方式发展的更加多样和隐蔽,来自内部和外部的网络安全事件频发,当前这些组织机构面临的安全风险变高
3、。因此,需要更加高效的网络入侵检测技术。对机构内部的用户和实体的行为检测,通过相应算法利用现有行为数据构建基线,能够高效的识别正常和入侵行为。网络入侵检测系统(,)根据所用的方法,可以分为基于误用的检测和基于异常的检测两类。基于误用的检测是对攻击行为构建基线,符合该基线的行为都看作入侵行为,这类方法的误报率较低,但漏报率较高。基于异常的检测对正常行为构建基线,不符合基线的行为都看作入侵行为,这类方法能够识别未知的攻击模式,也是本文采用的方法。相较于传统的防火墙系统,网络入侵检测系统对当前收集到的行为数据提取特征并与构建的正常行为基线进行比较,能够实时发现环境中的安全风险。最初的研究者基于统计学
4、习方法,捕获并分析网络流量活动的统计特征进行入侵检测,但是误报率较高,而且经常需要专家经验辅助判断。近年来,研究者通过引入机器学习,深度学习等技术进行入侵检测并取得了显著的提升效果,包括朴素贝叶斯算法(,),近邻算法(,),支持向量积算法(,)和逻辑回归算法(,)等。然而在使用这些算法时,需要对数据的缺失值进行处理,在处理大规模数据时效率不高,仍然存在误报率较高和检测效率较低的问题。集成学习(,)是近年来机器学习研究中 的 热 门 领 域。极 限 梯 度 提 升(,)是一种基于梯度提升决策树(,)改进的 集 成学 习 算 法。将 应用在网络入侵检测系统中得到了更高精度的投稿网址:计算机测量与控
5、制第 卷 检测效果。文献 中,研究者将 算法应用到网络入侵检测,分析和评估了 模型相对于其他分类模型的优势。结果表明 相较于朴素贝叶斯,和随机森林具有更好的准确率。对于机器学习来说,模型的参数会在很大程度上影响其性能表现,一般采用穷举法来找到使模型表现最好的参数,但这种方法效率较低。研究者受到群居动物通过合作来完成复杂的任务的行为启发提出了一系列群体智能优化算法来 求 解 优 化 问 题,在 分 类 任 务 上 取 得 了 较 好 的 效果。文献 中提出基于粒子群算法(,)对 进行参数优化,应用到进行入侵检测任务中,提高了模型训练效率并实现了较低的误报率。文献 采用遗传算法(,)对 的惩罚因子
6、、核函数进行优化,明显缩短了检测时间,并在检测准确率上有所提升。文献 用递归消除算法去除冗余特征后,利用遗传算法来优化轻量级梯度提升机(,)的关键参数。文献 针对轴承故障诊断问题,结合鲸鱼优化算法(,)提出了一种基于深度学习特征提取和 状态识别相结合的故障诊断模型。对比了 和 模型,结果表明 具有较高的收敛精度和速度。文献 提出了 一 种 将算 法 与 相 关 向 量 机(,)相结合的模型。将 模型应用于天然气负荷的短期预测,该模型在预测精确度高于其他模型。算法作为一种结构简洁易于实现且适应性较强的算法,能有效避免陷入局部最优解的情况。有研究者将算法应用到入侵检测领域。文献 提出使用算法来优化
7、 来进行入侵检测。在两个常用的入侵检测数据集 和 进行测试验证,结果表明 算法相较于其他优化算法如粒子群算法,遗传算法和灰狼优化算法(,)有更好的效果。文献 组合算法和遗传算子作为 的参数 优 化 方 法,提 出 了 模 型 来 检 测 无 线 网络中的入侵行为,同遗传算法进行对比,实验表明该模型有效降低了计算复杂度和检测时间,并且在检测效率上有较好的提升。研究者提出了很多结合智能群体优化算法和机器学习算法的入侵检测方法,仍有一定缺陷。这些研究大都对模型进行整体评估,仅评估了算法在数据集上的整体表现,如准确率,精确率,等,却未对数据集中的每种攻击类型的分类效果进行评估分析。本文结合智能群体优化
8、算法和机器学习算法提出了 模型。模型利用 良好的搜索能力对 模型中的参数进行适应性的优化。有效的提高了其在入侵检测中的性能,包括对不同类别攻击的识别能力。其次,在评估 模型的性能时,使用 数据集,不仅评估了模型总体性能,还评估了模型对各个攻击类别的识别能力,并与 算法和其他集成学习算法包括随机森林(,)、和 进行了性能对比。实验结果表明混合模型对大部分攻击类别具有较好的效果。算法模型 算法 算法基于集成学习中的 算法,算法通过累加多个弱分类器来组合成一个强分类器。一般采用决策树作为基学习器。是在 算法的基础上进行了改进,在优化目标函数时使用二阶泰勒展开式作为模型损失残差,提高了模型精度。并引入
9、正则化项,更好地防止过拟合。使用前向分步加法训练来优化目标函数,这意味着后一步的优化过程依赖于前一步的结果。第次迭代要训练的树模型为(),则本轮迭代预测结果为:()()()()式中,()表示第次迭代中对样本的预测结果,()表示前颗树的预测结果,()为第颗树的预测结果。由于 是一个累加多个基学习器的模型,在模型的第轮迭代中,目标函数可以表示如下:()(,()()()()式中,表示第轮迭代中损失函数,为一个常数项,树的复杂度将全部颗树的复杂度进行求和作为目标函数的正则化项,正则化项的引入用于防止模型过拟合,计算公式如下:()()树的复杂度由当前所有决策树的叶子结点数量和所有节点权重向量共同决定,和
10、是正则化系数,一般这两个数值越大,树结构越简单,也就能更好地解决过拟合的问题。计算公式()的二阶泰勒展开式,得到如下结果:()(,)()()()()其中:为 损 失 函 数 的 一 阶 导,为 二 阶 导,计 算 公 式如下:(,)()(,)()只要求出每轮和的值,然后优化目标函数,从而得到每轮迭代的决策树(),最后累加所有的决策树,得到一个整体模型。定义实例集:()()投稿网址:第期闫海涛,等:基于 模型的网络入侵检测 ()()表示将属于第个叶子结点的所有样本划入到一个叶子结点的样本集合中,表示叶子结点所包含样本的一阶偏导数累加之和,是一个常量,表示叶子结点所包含样本的二阶偏导数累加之和,也
11、是一个常量。将公式()()带入公式()中,求导,得到如下最优叶子权重和最优化目标 :()()其中:表示节点的权重,表示损失函数的得分,分数越小,所得树的分类结果越好。在建立第颗树时,关键在于找到叶子结点的最优切割点,对目标函数 ,分裂后的收益 取得最大值时即为最优分割。分裂收益 的计算公式如下:()()括号内前两项分别为左右子树的得分,第三项为不进行分割时的得分。鲸鱼优化算法鲸鱼优化算法由 等人提出,他们受鲸鱼捕食猎物的启发,在观察鲸鱼群体搜寻、包围、抓捕和攻击猎物等过程后,提出了寻找猎物,包围猎物,螺旋泡网捕食的数学模型。每个鲸鱼的位置代表了一个可行解。最优解为猎物位置或者最接近猎物的位置。
12、算法用搜索代理表示鲸鱼,在每次迭代中,搜索代理随机选择其他搜索代理的位置或当前最优搜索代理的位置作为目标来更新它们的位置。算法的优化过程如下:首先,随机初始化搜索代理位置(,),其中,为待优化参数的个数,计算每个搜索代理的 。每一轮迭代中,按如下公式更新搜索代理位置:()()()()()其中:是当前迭代次数,算法依概率选择圆形围捕运动或螺旋运动接近猎物,参数用于控制螺旋形状,为,的随机数。式中,用于衡量当前搜索代理与目标搜索代理的距离,目标搜索代理为最优搜索代理或随机选择的搜索代理,表示当前搜索代理与最优搜索代理的距离,计算公式如下:()()()()()()()()式中,()表示目前为止最优的
13、搜索代理位置向量,()表示某个随机搜索代理位置向量,()表示当前搜索代理的位置向量,和为系数:()()()(),为,之间的随机向量,收敛因子在迭代的过程中线性的从降到,表示最大迭代次数,从降到的过程,控制了搜索代理从搜寻到捕猎的转换过程,与之对应的,当时,对应搜寻和包围猎物的过程,选择随机搜索代理更新当前代理位置。当时,对应围捕过程,选择最优搜索代理更新当前代理位置。最后,算法满足终止准则而终止。数据集和数据预处理作为 的优化版本,数据集克服了数据集的固有问题。通过去除冗余和重复记录,降低了数据集中不平衡数据的影响。重新调整训练集和测试集中样本到 合 适 的 数 量。数 据 集 包 括 正 常
14、 行 为 和 四 种 攻 击:、拒绝服务攻击(,)、本地未授权访问(,)和远程未授权访问(,)。在每个攻击类别下包括多种攻击行为,如 类 包 含 扫 描、扫 描 等。类 包 含 攻击,攻击等。类下包含缓冲区溢出攻击、脚本攻击等。类包括 密码猜解等。训练和测试数据中类别的分布分别如图所示。图数据样本分布统计图数据集中包括了网络连接的基本属性特征和内容特征、基于时间和基于主机的网络流量统计特征。在数据集的 个特征中,有个离散特征和 个连续特征。因为不同的特征可能有不同的测量方法,由于量纲的不同,数值型数据的数值偏差较大会影响梯度下降算法求最优解的速度,需要进行数据标准化处理。原始特征集合中第个特征
15、类型集合中第个元素的特征值 其中,标准化过程如下:()()()式中,()为第个特征的均值,()表示该特征的平均绝对值误差。在标准化后,采用最大最小归一化方法进行处理,使投稿网址:计算机测量与控制第 卷 各字段处于同一数量级,为原始特征值,为标准化后的数据,为原始特征值的集合。处理方法如下:()()()()模型评估入侵行为的检测可以看作分类任务,将行为分为正常行为和入侵行为两类,对应分类任务中的正类和负类。本文除了使用分类任务常用的评价指标包括精确率(,),召回率(,),对模型进行评估,还使用了查准率查全率(,)曲线和受试者工作特征曲线(,)进行评估。曲线一般只能对模型的整体性能进行评估,曲线相
16、较于 曲线能够反应出模型在数据集中各个类别上的性能表现。受试者工作特征曲线通过设定范围从到的一系列阈值,得出的模型的一系列假阳率和真阳率数值对,作图得到 曲 线,曲 线 越 靠 近 左 上 角,曲 线 下 的 面 积(,)也就越大,模型的整体表现也就越好。曲线通过设定范围从到的一系列阈值下,得到的精确率和召回率数值对的连线。相较于 曲线,曲线能够反映出样本分布对模型的影响。平均精确度(,)即为曲线下的面积。某一类的 值越大,表明模型在该类上的分类性能越好。使用平均精度均值(,)曲线和宏平均曲线描述模型在所有类别上的综合识别性能。模型训练与优化 模型包含通用参数和模型参数,通用参数包括 、,这些不需要参数优化。模型参数作为本文优化的目标,对模型的性能有重要影响。实验中,使用鲸鱼优化算法对模型性能影响最关键的个参数进行搜索优化,包括学习率 ,最大树深度 、最小叶权重 ,剪枝参数 、样本随机采 样 参 数 和 样 本 列 采 样 参 数 。关于 这个待优化模型参数的取值范围和参数的作用介绍见表所示。表 参数介绍参数范围描述 ,学习率 ,数的最大深度 ,叶节点最小权重 ,控制是否剪枝 (,控制