1、基于改进演化博弈模型的网络防御决策方法马润年张恩宁王刚*马宇峰翁江(空军工程大学信息与导航学院西安710077)(国防科技大学通信学院试验训练基地西安710106)摘要:针对网络防御决策的误差干扰和实时响应问题,该文提出一种改进演化博弈模型(IEGM)和网络防御决策方法。首先,借鉴经典伺服系统模型,用微分假设量化表示防御方对攻击策略的短期预测效应,加快模型收敛速度,提升防御决策效率。其次,分析攻防博弈中的误差产生机理,量化定义网络防御中的观测误差,提出改进复制动力学方程,加强模型对信息偏差的容忍度。在此基础上,建立改进演化博弈模型,证明了模型能够收敛至纳什均衡解的微小-邻域,给出了相应的稳定性
2、分析,并设计了一种网络防御决策方法。理论分析和仿真结果表明,所提模型能够克服观测误差影响,给出偏差数量级在0.01%的最优防御纯策略,且在强干扰环境下,防御决策的响应速度相较于其他3种经典决策模型最高可以提升64.06%。改进模型和防御决策方法能够有效提升防御决策的响应时效性和对观测误差的适应性。关键词:网络防御;决策方法;误差容忍;短期预测;改进复制动态中图分类号:TN915.08;TP399文献标识码:A文章编号:1009-5896(2023)06-1970-11DOI:10.11999/JEIT220585Network Defense Decision-making Method Ba
3、sed onImproved Evolutionary Game ModelMARunnianZHANGEnningWANGGangMAYufengWENGJiang(Institute of Telecommunication Engineering,Air Force Engineering University,Xian 710077,China)(Information and Communication Institute Experimental Training Base,National University of Defense Technology,Xian 710106,
4、China)Abstract:Fortheproblemthattheexistingnetworkdefensedecision-makingmethodischallengingbyerrorinterferenceandreal-timeresponse,anovelnetworkdefensedecision-makingmethodbasedonanImprovedEvolutionaryGameModel(IEGM)isproposed.Firstly,usingtheclassicalservosystemmodelforreference,theshort-termpredic
5、tioneffectofthedefensesideontheattackstrategyisquantifiedbydifferentialhypothesistoacceleratetheconvergenceofthemodelandimprovetheefficiencyofdefensedecisions.Secondly,themechanismoferrorgenerationinattack-defensegameisanalyzed,thentheobservationalerrorinnetworkdefenseisdefinedquantitatively,andthei
6、mprovedreplicationdynamicsequationisproposedtostrengthenthetoleranceofthemodeltoinformationdeviation.Onthisbasis,animprovedevolutionarygamemodelisestablished,andthecorrespondingstabilityanalysisandmathematicalproofaregiventoprovethatthemodelcanconvergetothe-neighborhoodoftheNashequilibriumsolution.T
7、heoreticalanalysisandsimulationresultsshowthattheproposedmodelcanovercometheinfluenceofobservationerror,andtheoptimalpuredefensestrategywithdeviationorderof0.01%isgiven.Besides,underthejammingenvironment,theresponsespeedofdefensedecision-makingcanbeimprovedby64.06%comparedwiththeotherthreedecisionmo
8、dels.Theimprovedmodelanddecision-makingmethodcaneffectivelyimprovetheresponsetimelinessofdefensedecisionsandtheadaptabilitytoobservationerror.Key words:Networkdefense;Decision-makingmethod;Errortolerance;Short-termprediction;Improvedreplicatordynamics收稿日期:2022-05-10;改回日期:2022-07-16;网络出版:2022-07-21*通
9、信作者:王刚基金项目:国家自然科学基金(61902426)FoundationItem:TheNationalNaturalScienceFoundationofChina(61902426)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.20231 引言机器学习、大数据分析等技术加速了人类社会的智能化变革,也给网络安全和隐私防护带来新的挑战。高级可持续威胁(AdvancedPersistentThreat,APT)和动态目标防御等新型网络攻防理论技术的快速发展,使得网络安全态势和攻防博弈
10、行为日趋复杂。网络防御决策是网络防御的重要环节,在攻强守弱的大背景下,实现主动防御的关键是打破攻击方的杀伤链1,在运用入侵检测等手段捕获攻击方行为信息的基础上,预测攻击策略,提前部署防御,通过地址动态跳变、操作系统迁移等手段使得对手设计的攻击策略无效或者成本太高而不可行。在防御决策过程中,需要综合考虑对手攻击技战术能力、己方防御操作代价、环境干扰等因素,在量化分析的基础上,依据科学的决策理论和方法优选防御策略,在有限资源条件下实现防御效用的最大化2。当前制约主动防御效能的短板主要有两方面:一是防御态势感知能力不足。攻击方为了提升攻击效果,会运用技战术手段使得防御方感知到不完整信息甚至是虚假信息
11、。与此同时,防御方也无法从根本上解决入侵检测系统的误报和漏报问题,预测偏差客观存在2。二是防御决策效率不高。防御决策的速度依赖于信息条件、计算水平以及攻防博弈策略的复杂度等因素。在有限的信息条件下,经典模型的算法时间复杂度较高,预测攻击策略的耗时较长,容易导致主动防御部署滞后,难以阻止杀伤链形成2,3。因此,如何进一步推动防御决策方法的科学有效性是当前网络防御理论研究中亟需解决的问题。网络攻防中参与方具有目标对立,策略依存和非合作型关系的本质属性,可以运用博弈论提供的数学框架开展科学研究。其中,演化博弈模型可以在不完全信息条件下模拟网络攻防双方策略的互动演化过程,得到稳定的纳什均衡策略,为优选
12、网络防御策略提供参考4,5。经典演化博弈模型描述了采用相同决策方式的同质博弈群体的自我演化过程,但是实际网络攻防中双方决策具有显著差异性。例如,在决策标准方面,防御方要权衡防护节点的资源重要程度,安防部署成本和防御操作代价;攻击方则需要考虑攻击成本,攻击失败的惩罚等因素。决策标准的差异性会反映到攻防双方收益的量化方式上,并进一步影响攻防双方的决策偏好,这种基于不同决策范式的异质博弈群体的非合作演化过程是当前研究的热点3。总体来看,时效性和误差容忍度是当前网络防御决策需要重点关注的两个问题,也是基于经典演化博弈模型的网络防御决策方法面临的两大挑战:一是网络防御的敏捷反应需求和模型复杂决策过程的内
13、在矛盾。经典演化博弈模型采用复制动态描述防御策略的演化优选过程,本质上是一种具有结果承继性的重复博弈。环比其他博弈模型,演化博弈模型使用的算法的时间复杂度较高,敏捷适应性相对不足,直接影响网络防御方响应攻击事件的速度。因此,亟需设计有效的优化方法以提升模型演化稳定解的收敛速度。二是获取态势信息的过程中可能存在的观测误差导致模型和决策的可信性存疑。高级可持续威胁攻击,采用信号诱导的方式欺骗防御方的入侵检测系统6,隐藏真实的攻击窗口及攻击时间,造成防御方的观测误差,入侵检测中无法避免的虚警和漏警就是这一现象的真实体现。基于上述问题与挑战,本文对改进演化博弈模型构建及防御决策方法展开研究。演化博弈的
14、动态演化过程可以看作系统受到扰动后恢复稳态的进程,具有离散逻辑决策和连续时间控制的特点,是伺服系统中典型的反馈控制流程7。在反馈控制流程中,已有多种方法被证明可以有效加速循环速度,例如在生物运动控制模型中,学者采用微分假设模拟生物学中主动神经介导节段的反射延迟减弱现象,有效提升了仿生模型的运动控制效果8。受此启发,本文使用博弈信念的微分假设表示防御方对攻击策略的短期预测,加速模型的演化速度,并在每一轮演化迭代过程中,将形式化表达的观测误差纳入决策动力学模型中,进一步研究博弈模型在信息偏差下的稳定性和准确性。在此基础上,搭建仿真实验环境,开展模型稳定性验证实验以及改进模型和经典模型的性能对比实验
15、,进一步论证模型的敏捷适应性和可信性。2 相关工作将博弈理论迁移应用于网络信息安全已成为该领域的一个热点。学者从行为者完全理性,完全信息条件和单阶段静态假设出发,建立网络攻防博弈模型9,以此为基础过渡到有限理性,不完全信息条件下的多阶段网络攻防博弈。由于在实际网络对抗中,攻防双方会根据态势信息不断改进行为策略的内在驱动,因此使用演化博弈中的复制动态方程,刻画策略选择的动力学规律是解决具体问题的有效方法。如在传感器网络中引入基于信任值的复制动态,分析网络节点间信任关系的动力学方程和演化趋势10;结合军事信息网络的确定性决策特点,构建纯策略演化博弈模型,扭转被动防御态势11;引入可信第三方动态惩罚
16、策略,分析入侵策略对演化复制动态方程的影响,提升边缘雾计算的安全第6期马润年等:基于改进演化博弈模型的网络防御决策方法1971性12。但和随机博弈13、信号博弈等6方法相比,演化博弈由于其复制动态特性,需要不断迭代才能输出稳定结果,其时敏性相对不足。目前已有学者在提升演化博弈模型速度的问题上进行探索,如参考社交网络中行为人的模仿特性,构建以模仿为信息交互模式的改进复制动态模型14;或者从群体中策略激励机制和反思学习机制角度入手,考虑优势策略在博弈群体中的扩散现象15,提出改进复制动态方程。上述模型能够有效提升演化博弈的求解速度,但是均认为防御方具备理想态势感知能力,即在对攻击方的情报获取中不考虑干扰诱骗或误报漏报,使得模型的应用价值受限。在抗干扰防诱骗方面,博弈框架下目前有两种解决思路,一种是结合动态目标防御技术和马尔可夫(Markov)决策理论,将动态博弈过程离散化处理,分析上一阶段诱骗、误差信号对下一阶段决策的影响6;另一种是在群体进行复制动态演化的过程中添加随机扰动,将个体之间的认知能力差异16或者入侵检测系统的虚警漏警现象17模型化,分析干扰误差对演化稳定结果的影响。总结相关工